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为 何 写 这 本 书 


本 书 是 一 本 全 新 的 概率 统计 入 门 教 材 ， 重 点 介绍 如 何 用 统计 学 方法 分 析 大 型 数据 集 。 本 书 会 


介绍 


如 何 使 用 计算 机 实现 各 种 统计 方法 ， 这 有 诸多 优点 。 


学 生 可 以 通过 编写 程序 来 深化 和 检查 自己 对 概念 的 理解 。 例 如 ， 编 写 计 算 最 小 二 乘 拟 
合 、 残 差 和 判定 系数 的 函数 ， 编 宇和 测试 这 些 代码 需要 他 们 正确 理解 相关 概念 ， 消 除 各 
种 可 能 的 误解 。 

学 生 能 够 通过 计算 实验 来 验证 统计 学 上 的 一 些 定理 。 例 如 ， 生 成 服从 各 种 分 布 的 样本 来 
验证 中 心 极限 定理 (Central Limit Theorem，CLT) 。 当 发 现 服从 帕 累 托 分 布 的 样本 并 没 
有 收 化 到 正 态 分 布 时 ， 他 们 肯定 会 记 住 中 心 极限 定理 的 前 提 条 件 。 

有 些 从 数学 上 很 难 理解 的 概念 可 以 很 容易 地 用 模拟 方法 来 阐述 。 例 如 ， 通 过 蒙特 卡 罗 模 
拟 近 似 求 出 p 值 ， 就 能 说 明 p 值 的 含义 。 

使 用 离散 分 布 和 计算 方法 可 以 把 贝 叶 斯 模拟 之 类 在 入 门 课程 中 很 少见 的 内 容 讲 清楚 。 例 
如 ， 本 书 中 有 个 练习 要 求学 生计 算 " 德 国 坦克 问题 ”(German tank problem) 的 后 验 分 
布 ， 通 过 理论 分 析 很 难得 到 答案 ， 但 用 计算 手段 却 很 容易 得 出 结果 。 

因为 学 生 使 用 的 是 通用 编程 语言 Python， 所 以 他 们 可 以 导入 各 种 来 源 的 数据 ， 并 不 局 限 
于 那些 已 经 为 特定 统计 工具 整理 好 的 数据 。 


本 书 内 容 是 按 项 目 来 组 织 的 。 在 我 的 课 上 ， 学 生 会 用 一 个 学 期 的 时 间 来 做 一 个 项 目 ， 在 此 期 
间 他 们 要 提出 统计 学 问题 、 找 到 合适 的 数据 集 ， 并 用 学 到 的 技术 来 处 理 这 些 数据 。 


为 了 演示 我 想 要 学 生 做 的 分 析 ， 本 书 会 有 一 个 贯穿 全 书 的 实例 。 它 所 使 用 的 数据 主要 有 以 下 
两 个 来 源 。 


由 美国 疾病 控制 与 预防 中 心 (Centers for Disease Control and Prevention，CDC) 主持 
的 全 国家 庭 成 长 调查 (National Survey of Family Growth，NSFG) 项 目 ， 该 项 目 是 为 了 
收集 美国 人 的 "家庭 生 活 、 婚 姻 状 况 、 生 育 、 避 孕 和 男女 健康 等 信息 ”( 参 见 
http://cdc.gov/inchs/nsfg.htm ) 。 

由 全 国 慢 性 病 预 防 和 健康 促进 中 心 主 导 的 行为 风险 因素 监测 系统 (The Behavioral Risk 
Factor Surveillance System，BRFSS) ， 该 系统 旨 在 跟踪 “美国 人 的 健康 状况 和 危险 行 
为 ”( 参 见 http://cdc.gov/BRFSS/) 。 


其 他 例子 所 使 用 的 数据 则 来 自 IRS (美国 国税 局 ) 、 美 国人 口 普 查 和 波士顿 马拉松 比赛 。 


本 书 的 写作 原则 


要 写 一 本 新 教材 ， 通 常 的 做 法 是 参考 一 堆 老 教材 。 很 多 书 的 内 容 因 此 都 会 重复 ， 且 行文 组 织 
也 大 同 小 异 ， 出 现 了 不 少 以 议 传 襄 的 情况 。 史 蒂 芬 - 古 尔 德 在 他 的 文章 中 就 提 到 过 一 个 关于 猎 
狐 大 的 例子 【1] 。 但 我 可 没有 这 样 做 ， 我 在 撰写 本 书 过 程 中 几乎 没有 参考 过 任何 已 出 版 的 材 
料 ， 主 要 原因 如 下 。 


。 本 书 的 目的 是 要 探索 这 方面 的 新 方法 ， 所 以 对 已 有 的 方法 我 并 不 想 讲 太 多 。 

。 只 让 所 有 人 都 可 以 自由 地 使 用 本 书 内 容 ， 因 此 要 确保 书 中 所 有 内 容 都 没有 版 权限 制 。 

。 很 多 读者 都 不 方便 到 图 书馆 借阅 纸 版 书 ， 所 以 本 书 尽量 只 引用 能 在 网 上 免费 查阅 的 内 
容 。 

。 传统 媒体 的 支持 者 认为 只 使 用 网 络 资源 是 一 种 偷懒 的 行为 ， 而 且 内 容 也 不 可 靠 。 我 认同 
前 半 句 话 ， 但 不 同意 后 半 句 ， 所 以 我 要 亲自 证 明 。 


[1] Stephen Jay Gould (1941 一 2002) ， 美 国 著名 的 进化 生物 学 家 、 古 生物 学 家 、 科 
学 史学 家 和 科普 作家 ; 很 多 教科 书 中 说 始祖 马 跟 小 猎 狐 犬 差不多 大 ， 史 芒 苍 . 古 尔 德 在 他 
的 文章 中 纠正 了 这 一 错误 观点 ( 译 者 注 ) ， 狗 大 概 只 有 始祖 马 的 一 半 大 ( 见 
http://wikipedia.org/wiki/Hyracotherium) 。 


我 用 得 最 多 的 资源 是 维基 百科 ， 其 内 容 涉及 方方面面 ， 每 个 人 都 可 以 查阅 。 总 体 看 来 ， 我 所 
读 过 的 关于 统计 学 的 文章 整体 质量 都 不 错 (不 过 我 也 做 了 一 些 修 改 ) 。 本 书 引 用 了 不 少 维基 
百科 的 链接 ， 建 议 读者 去 读 一 读 这 些 网 页 内 容 。 这 些 页 面 很 多 时 候 都 是 对 本 书 所 介绍 内 容 的 
很 好 补充 和 完善 。 除 非 有 充分 的 理由 修改 ， 否 则 本 书 中 所 使 用 的 术语 和 概念 与 维基 百科 基本 
保持 一 致 。 


其 他 实用 资源 包括 Wolfram MathWorld (http://mathworld.wolfram.com/) ， 当 然 还 有 
Google。 我 还 用 到 了 两 本 书 ，David MacKay 的 Information Theory, Inference, and Learning 
we 和 Press 等 人 合 著 的 Numerical Recipes in C， 前 者 是 我 学 习 贝 叶 斯 统计 的 
书 。 不 过 ， 因 为 这 两 本 书 都 可 以 在 网 上 找到 ， 所 以 并 不 违反 我 之 前 所 说 的 原则 。 





[2] 中 译本 《信息 论 、 推 理 与 学 习 算法 (翻译 版 )》 由 高 等 教育 出 版 社 出 版 (2006) 
《C 语 言 数值 算法 程序 大 全 (第 二 版 ) 》 由 电子 工业 出 版 社 出 版 (1995) 。 编者 注 
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排版 约定 


本 书 使 用 的 排版 约定 如 下 。 
。 粗 体 表示 新 的 术语 。 


。 等 宽 字体 表示 程序 片段 ， 也 用 于 在 正文 中 表示 程序 中 使 用 的 变量 、 画 数 名 、 


码 、 环 境 变量 、 语 句 和 关键 词 等 代码 文本 。 
。 加 粗 的 等 宽 字 体 表示 应 该 由 用 户 逐 字 输 入 的 命令 或 者 其 他 文本 。 


示例 代码 


本 书 就 是 要 帮 读 者 解决 实际 问题 的 。 也 许 你 需要 在 自己 的 程序 或 文档 中 用 到 本 书 中 的 代码 。 
除非 大 段 大 段 地 使 用 ， 否 则 不 必 与 我 们 联系 取得 授权 。 因 此 ， 用 本 书 中 的 几 段 代码 写成 一 个 
程序 不 用 向 我 们 申请 许可 。 但 是 销售 或 者 分 发 O'Reilly 图 书 随 附 的 代码 光盘 则 必须 事先 获得 授 
权 。 引 用 书 中 的 代码 来 回答 问题 也 无 需 我 们 授权 。 将 大 段 的 示例 代码 整合 到 你 自己 的 产品 文 
档 中 则 必须 经 过 许可 。 

使 用 我 们 的 代码 时 ， 希 望 你 能 标明 它 的 出 处 。 出 处 一 般 要 包含 书 名 、 作 者 、 出 版 商 和 ISBN,， 
例如 : Think Stats by Allen B. Downey (O'Reilly). Copyright 2011 Allen B. Downey, 978-1- 
449-30711-0。 


如 果 还 有 其 他 使 用 代码 的 情形 需要 与 我 们 沟通 ， 可 以 随时 与 我 们 联系 : 


permissions@oreilly.com。 


Safari Books Online 


Safarl 


Books Online 


Safari Books Online (www.safaribooksonline.com) 是 应 需 而 变 的 数字 图 书馆 。 它 同时 以 图 
书 和 视频 的 形式 出 版 世界 顶级 技术 和 商务 作家 的 专业 作品 。 


Safari Books Online 是 技术 专家 、 软 件 开发 人 员 、Web 设 计 病 、 商 务 人 士 和 创意 人 士 开 展 调 
研 、 解 决 问题 、 学 习 和 认证 培训 的 第 一 手 资料 。 


对 于 组 织 团体 、 政 府 机 构 和 个 人 ，Sarfari Books Online 提 供 各 种 产品 组 合 和 灵活 的 定价 策略 。 
用 户 可 通过 一 个 功能 完备 的 数据 库 检索 系统 访问 O'Reilly Media、Prentice Hall Professional、 
Addison-Wesley Professional、 Microsoft Press、Sams、Que、Peachpit Press、Focal 
Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、1IBM 
Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGraw- 
Hill、Jones & Bartlett、Course Technology 以 及 其 他 几 十 家 出 版 社 的 上 千 种 图 书 、 培 训 视 频 
和 正式 出 版 之 前 的 书稿 。 要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 


联系 我 们 


请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
美国 : O'Reilly Media, Inc. 1005 Gravenstein Highway North Sebastopol, CA 95472 


中 国 : 北京 市 西城 区 西直门 南大 街 2 号 成 馈 大 厦 C 座 807 室 (100035) 奥 莱 利 技术 咨询 ( 北 
京 ) 有 限 公司 


O'Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘 误 表 、 示 例 代 
码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : http://www.oreilly.com/catalog/0636920020745 


中 文 版 地 址 : http://www .oreilly.com.cn/index.php?func=book&isbn=978-7-115-31737-7 
对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电子 邮件 到 : bookquestions@oreilly.com 


要 了 解 更 多 O'Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : 
http://www .oreilly.com 


我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly 
请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia 


我 们 的 YouTube 视 频 地 址 如 下 : http://www.youtube.com/oreillymedia 


第 1 章 程序 员 的 统计 思维 


本 书 讨论 如 何 将 数据 转换 为 知识 。 数 据 是 廉价 的 (至 少 相对 而 言 如 此 ) ， 但 知识 却 异常 宝 


洲 


我 会 介绍 以 下 三 门 相互 关联 的 学 科 。 


。 概率 论 主要 研究 随机 事件 。 人 们 对 某 些 事件 发 生 的 可 能 性 高 低 一 般 都 有 直观 的 认识 ， 所 
以 未 经 特殊 训练 就 会 使 用 "可 能 `、“ 不 可 能 "之 类 的 词汇 。 但 本 书 会 介绍 如 何 量化 这 种 可 能 
性 。 

。 统计 学 统计 学 旨 在 根据 数据 样本 推测 总 体 情况 。 大 部 分 统计 分 析 都 基于 概率 ， 所 以 这 两 
方面 的 内 容 通常 兼 而 有 之 。 

。 计算 量化 分 析 的 最 佳 工具 。 计 算 机 是 处 理 统计 量 的 常用 工具 。 此 外 ， 计 算 实验 还 有 助 于 
理解 概率 论 和 统计 学 中 的 概念 。 


本 书 的 主要 目的 就 是 要 让 懂 编 程 的 人 通过 编程 来 理解 概率 论 和 统计 学 。 人 们 通常 是 从 数学 角 
度 讲解 概率 论 和 统计 学 ， 而 且 很 多 人 也 因此 学 会 了 概率 论 和 统计 学 。 但 在 概率 论 和 统计 学 
中 ， 有 很 多 概念 从 数学 角度 很 难 理解 ， 但 如 果 用 计算 方法 就 比较 容易 。 


记得 我 妻子 怀 上 我 们 第 一 个 孩子 时 ， 我 听 到 过 这 样 一 个 问题 : 第 一 胎 多 在 预产期 后 出 生 吗 ? 
本 章 接 下 来 介绍 的 例子 就 源 自 这 个 问题 。 


全 
1.1 第 一 个 孩子 出 生 晚 吗 
如 果 在 Google 上 搜索 这 个 问题 ， 你 会 看 到 大 量 的 相关 讨论 。 有 些 人 说 确实 如 此 ， 也 有 人 说 这 
没 根据 ， 还 有 人 持 完 全 相反 的 观点 : 第 一 个 孩子 会 在 预产期 之 前 出 生 。 
在 这 类 讨论 中 ， 人 们 会 用 各 种 数据 来 证 明 自己 的 说 法 ， 常 见 的 例子 如 下 。 
“我 有 两 个 朋友 最 近 都 刚 生 了 第 一 个 孩子 ， 两 个 宝宝 的 出 生 时 间 都 比 预产期 晚 了 差不多 两 周 。” 
“我 的 第 一 个 孩子 晚 了 两 周 才 出 生 ， 我 想 我 的 第 二 个 孩子 会 提前 两 周 。” 
“我 觉得 这 没 道理 ， 因 为 我 姐姐 是 我 妈妈 的 第 一 个 孩子 ， 她 就 提前 出 生 了 ， 我 的 几 个 表姐 也 一 
样 。” 
诸如 此 类 的 传闻 称 为 经 验 之 谈 (anecdotal evidence) ， 因 为 它们 基于 非 公 开发 表 的 数据 ， 而 
且 通 常 是 个 人 感受 。 在 非 正式 场合 ， 这 类 说 辞 没 问题 ， 所 以 这 里 并 不 是 说 上 述 观 点 不 对 。 问 


题 在 于 ， 我 们 需要 更 有 说 服 力 的 证 据 和 更 可 靠 的 结论 。 但 这 些 经 验 之 谈 显 然 做 不 到 这 一 点 ， 
原因 如 下 。 


。 观察 的 数量 太 少 第 一 胎 宝 宝 的 妊娠 期 比较 长 ， 但 这 种 差异 可 能 在 自然 波动 范围 内 。 这 种 
情况 下 ， 我 们 需要 比较 大 量 孕 妇 的 妊娠 期 数据 才能 判断 这 种 差异 是 否 真 的 存在 。 

选择 偏差 第 一 胎 宝 宝 出 生 比较 晚 的 父母 会 更 有 兴趣 加 入 这 祥 的 讨论 。 这 种 对 数据 进行 先 
择 的 过 程 就 会 导致 结果 不 准确 。 

确认 偏差 相信 这 种 说 法 的 人 会 提供 支持 示例 ， 而 怀疑 这 种 说 法 的 人 则 会 引用 反例 。 

不 准确 传闻 通常 都 是 个 人 的 经 历 ， 在 记忆 、 表 述 和 复述 等 方面 都 会 不 准确 。 


那么 ， 更 好 的 做 法 是 什么 呢 ? 


1.2 统计 方法 


为 了 解决 上 述 经 验 之 谈 的 种 种 不 足 ， 我 们 会 运用 以 下 统计 学 手段 。 


。 收集 数据 使 用 大 型 全 国 性 调查 的 数据 ， 这 些 数据 是 为 得 出 美国 人 口 方面 可 靠 的 统计 推断 
而 专门 收集 的 。 

。 描述 性 统计 计算 能 总 结 数据 的 统计 量 ， 并 评测 各 种 数据 可 视 化 的 方法 。 

。 探索 性 数据 分 析 寻找 模式 、 差 异 和 其 他 能 解答 我 们 问题 的 特征 。 同 时 ， 我 们 会 检查 不 一 
致 性 ， 并 确认 其 局 限 性 。 

。 假设 检验 在 发 现 明显 的 影响 时 (比如 两 个 族群 间 的 差异 ) ， 我 们 需要 评判 这 种 影响 是 否 
真实 ， 也 就 是 说 是 否 是 因为 随机 因素 造成 的 。 

。 估计 我 们 会 用 样本 数据 推断 全 部 人 口 的 特征 。 


通过 这 些 步骤 ， 绕 过 各 种 陷阱 ， 我 们 就 能 得 到 更 加 合理 也 更 可 能 正确 的 结论 。 


1.3 全 国家 庭 成 长 调查 


美国 疾病 控制 与 预防 中 心 (CDC) 从 1973 年 开始 推行 全 国家 庭 成 长 调查 (NSFG) ， 目 的 是 
收集 《美国 ) “家 庭 的 生活 、 婚 姻 状 况 、 生 育 、 避 孕 和 男女 健康 信息 。 调 查 的 结果 用 于 .……. 制 
定 健康 服务 和 健康 教育 计划 ， 以 及 对 家 庭 、 生 育 和 健康 的 统计 研究 "。 【人 1] 


[1] 参见 http://cdc.gov/nchs/nsfg.htm。 


我 们 会 利用 调查 收集 的 数据 来 研究 诸如 “第 一 个 小 孩 是 否 出 生得 较 晚 "之 类 的 问题 。 为 了 有 效 使 
用 这 些 数 据 ， 我 们 需要 理解 这 个 调查 是 怎么 设计 的 。 


NSFG 是 一 个 横断 面 研究 (cross-sectional study) ， 意 思 就 是 它 的 数据 是 一 群 人 在 某 个 时 间 
点 的 情况 。 另 一 种 常见 方法 是 纵 贯 研究 (longitudinal ee ， 就 是 在 一 段 时 间 内 反复 观察 同 
一 群 人 。 


NSFG 已 经 进行 了 7 次 ， 每 次 称 为 一 个 周期 (cycle) 。 我 们 会 使 用 来 自 Cycle 6 的 数据 ， 这 些 
数据 是 在 2002 年 1 月 到 2003 年 3 月 间 收 集 的 。 


NSFG 的 目的 是 得 到 关于 人 口 情况 的 一 些 结论 ， 调 查 对 象 是 15 到 44 岁 的 美国 人 。 


参与 调查 的 人 称 为 被 调查 者 (respondent) ， 一 组 被 调查 者 就 称 为 队列 (cohort) 。 通 常 ， 横 
断面 研究 意味 着 具有 代表 性 ， 即 目标 人 群 中 的 每 一 个 人 都 有 同等 的 几率 参与 调查 。 当 然 ， 实 
际 很 难 实现 这 种 理想 状况 ， 但 执行 调查 的 人 会 尽 可 能 地 做 到 这 一 点 。 


NSFG 不 具有 代表 性 ， 而 是 有 意 进 行 了 过 采样 (oversample) 。 设 计 者 所 调查 的 西班牙 裔 、 
非 毅 美国 人 和 青少年 的 比例 都 高 于 他 们 在 美国 人 口中 的 比例 。 过 采样 这 些 人 群 是 为 了 确保 其 
中 的 被 调查 者 数量 够 大 ， 从 而 得 到 有 效 的 统计 推断 。 


当然 ， 过 采样 增 大 了 根据 调查 结果 推断 全 体 人 口 结论 的 难度 。 稍 候 我 们 会 继续 讨论 这 一 点 。 


习题 1-1 


尽管 NSFG 已 经 进行 了 7 次 ， 但 它 并 不 是 纵 贯 研究 。 阅 读 维基 百科 页 
面 http://wikipedia.org/wiki/Cross-sectional_study 和 
http://wikipedia.org/wiki/Longitudinal_study 可 以 弄 清 楚 原 因 。 


习题 1-2 


这 个 练习 需要 从 NSFG 下 载 数据 ， 本 书 接 下 来 会 用 到 这 些 数据 。 


1. 打开 http://thinkstats.com/nsfg.html， 阅 读数 据 的 使 用 协议 ， 然 后 点 击 “| accept these 
terms”( 假 设 你 确实 同意 
2. 下 载 2002FemResp.dat.gz 和 2002FemPreg.dat.gz 两 个 文件 。 前 者 是 被 调查 者 文件 ， 每 一 


5. 


行 代表 一 个 被 调查 者 ， 总 共 7643 个 女性 被 调查 者 。 后 者 是 各 个 被 调查 者 的 怀孕 情况 。 
调查 的 在 线 资料 地 址 : http://www.icpsr.umich.edu/nsfg6 。 浏 览 左 侧 导航 栏 中 调查 的 各 部 
分 ， 大 致 了 解 一 下 其 中 的 内 容 。 还 可 以 在 
http:/cdc.gownchs/data/nsfg/nsfg_2002_questionnaires.htm 上 阅读 调查 问 凑 的 内 容 。 
本 书 的 配套 网 站 提供 了 义理 NSFG 数 据 文件 的 代码 。 从 http:/thinkstats.com/survey.py 下 
载 ， 然 后 在 放置 数据 文件 的 目录 中 运行 。 程 序 会 读 取 数 据 文 件 ， 然 后 会 显示 每 个 文件 的 
行 数 : 

Number of respondents 7643 

Number of pregnancies 13593 


浏览 一 下 代码 ， 大 致 了 解 一 下 其 功能 。 下 一 节 会 详细 介绍 。 


1.4 表 和 记录 


诗人 人、 哲学 家 Steve Martin 便 说 : 





“Oeuf' 就 是 egg, “chapeau” 就 是 hat。 好 像 所 有 的 东西 在 法 语 中 都 跟 在 英语 中 的 叫 法 不 一 
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样 。 


跟 法 语 一 样 ， 数 据 库 程 序 员 的 语言 也 跟 我 们 的 日 常 语 言 稍 有 不 同 。 因 为 我 们 要 谈 到 数据 库 ， 
所 以 有 必要 学 习 一 些 专业 术语 。 


被 调查 者 文件 中 的 每 一 行 都 表示 一 个 被 调查 者 。 这 行 信息 称 为 一 条 记录 (record) ， 组 成 记录 
的 变量 称 为 字段 (field) ， 若 干 记 录 的 集合 就 组 成 了 一 个 表 (table) 。 


看 一 下 survey.py 中 的 代码 ， 就 会 看 到 Record 和 Table 这 两 个 类 的 定义 ， 前 者 是 代表 记录 的 对 
象 ， 后 者 则 是 表示 表 的 对 象 。 


Record 有 两 个 子 类 ， 分 别 是 Respondent 和 Pregnancy， 两 者 分 别 是 被 调查 者 和 怀孕 的 记录 。 
目前 这 些 类 暂时 还 是 空 的 ， 其 中 还 没有 用 于 初始 化 其 属性 的 init 方 法 。 我 们 会 用 
Table.MakeRecord 方 法 将 一 行文 本 转换 成 一 个 Record 对 象 。 


Table 也 有 两 个 子 类 Respondents 和 Pregnancies。 这 两 个 类 的 init 方 法 设置 了 数据 文件 的 默认 
名 称 和 要 创建 的 记录 的 类 型 。 每 个 Table 对 象 都 有 一 个 records 属 性 ， 是 一 个 Record 对 象 的 列 
表 。 


二 


每 个 Table 的 GetFields 方 法 返回 一 个 指定 记录 字段 的 元 组 (tuple) 列表 ， 这 些 字段 就 是 
Record 对 象 的 属性 。 


例如 ， 下 面 是 Pregnancies.GetFields : 


def GetF1ields(self): 
return [ 

(casend i i2 nt 
prglength 25 2767 LINE 
NOUGCOMG 277 277 INE) 
burthord 278 2797 nt)y 
'finalwgt', 423, 440, float), 


一 一 一 一 


第 一 个 元 组 的 意思 从 第 1 列 到 第 12 列 是 caseid 字 段 ， 且 类 型 为 整数 。 每 个 元 组 包含 如 下 信息 。 


。 field 〈 字 段 名 ) 保存 该 字段 的 属性 的 名 称 。 大 部 分 情况 下 ， 我 使 用 NSFG 编 码 手 册 中 的 
名 称 ， 全 部 用 小 写 。 

。 start (起 始 列 ) 该 字段 的 起 始 列 编 号 。 例 如 ，caseid 的 起 始 编 号 是 1。 可 以 在 NSFG 编 码 
手册 中 查询 这 些 编号 : http://www.icpsr.umich.edu/nsfg6/。 


。 end (结束 列 ) 该 字段 的 结束 列 编号 。 例 如 ，caseid 的 结束 列 编号 是 12。 跟 Python 中 不 
一 样 ， 这 里 的 结束 列 也 是 该 字段 的 一 部 分 。 

。 转换 函数 将 字符 串 转 换 成 其 他 类 型 的 函数 。 可 以 用 内 置 的 函数 ， 上 比如 int 和 float， 也 可 以 
使 用 用 户 自 定义 的 函数 。 如 果 转 换 失 败 ， 属 性 的 值 就 会 是 字符 串 'NA'。 如 果 某 个 字段 不 需 
要 转换 ， 可 以 使 用 identity 范 数 或 是 str 函 数 。 


从 pregnancy 记 录 中 可 以 得 到 以 下 变量 。 


。 caseid 被 调查 者 的 整数 |D。 

。 prglength 怀孕 周期 ， 单 位 是 周 。 

。 outcome 怀孕 结果 的 整数 代码 。 代 码 1 表示 活 产 。 

。 birthord 正常 出 生 的 婴儿 的 顺序 。 例 如 ， 第 一 胎 婴 儿 的 编号 是 1。 如 果 没 有 正常 出 生 ， 该 
字段 为 空 。 

finalwgt 被 调查 者 的 统计 权重 。 这 是 一 个 浮 点 值 ， 表 示 这 名 被 调查 者 所 代表 的 人 群 在 美国 
总 人 口中 的 比例 。 过 采样 人 群 的 权重 偏 低 。 


如 果 你 仔细 阅读 编码 手册 ， 就 会 发 现 这 些 变量 大 部 分 都 经 过 了 重 编码 (recode) ， 也 就 是 说 
这 并 不 是 调查 所 采集 的 原始 数据 ， 而 是 根据 原始 数据 计算 出 来 的 。 


例如 ， 第 一 胎 活 婴 的 prglength 在 原始 数据 中 有 变量 wksgest (妊娠 周 数 ) 时 就 等 于 该 变量 的 
值 ， 否 则 就 会 用 mosgest * 4.33 (妊娠 月 数 乘 以 每 个 月 的 平均 周 数 ) 估计 出 来 。 


重 编码 通常 遵循 数据 一 致 性 和 准确 性 原则 。 除 非 有 特别 原因 一 定 要 使 用 原始 数据 ， 否 则 就 应 
该 直接 使 用 重 编码 后 的 数据 。 


你 可 能 还 发 现 了 Pregnancies 有 Recode 方 法 ， 用 来 做 一 些 其 他 的 检查 和 重 编码 工作 。 


习题 1-3 
在 这 个 练习 中 ， 我 们 会 编写 一 个 程序 来 看 看 Pregnancies 表 中 的 数据 。 


1， 在 survey.py 和 数据 文件 的 目录 中 创建 一 个 first.py 文 件 ， 然 后 将 下 面 的 代码 输入 或 复制 到 
文件 中 : 


import survey 

table = survey.Pregnancies() 
table.ReadRecords() 

print 'Number of pregnancies', 
len(table.records) 


结果 应 该 是 13 593 条 怀孕 记录 。 


2. 编写 一 个 循环 通 历 表 (table) ， 计 算 其 中 活 婴 的 数量 。 查 阅 临 床 结果 (outcome) 的 文 
档 ， 确 认 你 的 结果 跟 文档 中 的 总 结 一 致 。 


3 修改 这 个 循环 ， 将 活 婴 的 记录 分 成 两 组 : 一 组 是 第 一 胎 出 生 ; 另 一 组 是 其 他 情况 。 再 看 
一 些 出 生 顺 序 (birthord) 的 文档 ， 看 看 你 的 结果 跟 文 档 中 的 结果 是 否 一 致 。 在 处 理 新 的 
数据 集 时 ， 这 种 检查 对 于 发 现 数据 中 的 错误 和 不 一 致 性 、 检 查 程序 中 的 错误 以 及 检验 对 
字段 编码 方式 的 理解 是 否 正 确 等 都 是 很 有 用 的 。 

4. 分 别 计算 第 一 胎 宝 宝 和 其 他 宝宝 的 平均 怀孕 周期 (单位 是 周 ) 。 两 组 之 间 有 差异 吗 ? 差 
异 有 多 大 ? 


从 http://thinkstats.com/first.py 可 下 载 这 个 练习 的 答案 。 


1.5 显著 性 


在 前 面 的 练习 中 ， 我 们 比较 了 第 一 胎 宝宝 和 其 他 宝宝 的 妊娠 期 。 如 果 一 切 顺 利 ， 读 者 会 发 现 
第 一 胎 宝 宝 的 出 生 时 间 比 其 他 宝宝 的 出 生 时 间 平 均 晚 13 个 小 时 。 


类 似 这 样 的 差异 称 为 直观 效应 (apparent effect) ， 意 思 就 是 似乎 发 生 了 有 意思 的 事情 ， 但 还 
不 确定 。 我 们 还 需要 考虑 以 下 问题 。 


。 如 果 两 组 的 均值 不 一 样 ， 其 他 汇总 统计 量 如 何 ， 比 如 中 值 和 方差 ? 我 们 能 更 精确 地 描述 
它们 之 间 的 差异 吗 ? 

。 有 没有 可 能 这 两 组 实际 上 是 一 样 的 ， 而 我 们 所 观察 到 的 这 种 差异 只 是 随机 产生 的 ?3 如 果 
是 ， 那 这 个 结论 就 不 是 统计 显著 的 。 

。 这 种 直观 效应 有 没有 可 能 是 因为 选择 偏差 或 是 实验 设置 中 的 错误 导致 的 ?如 果 是 ， 那 么 
这 种 直观 效应 就 是 人 为 的 ， 也 就 是 我 们 意外 创造 的 ， 而 并 非 发 现 了 事实 。 


本 书 接 下 来 的 大 部 分 内 容 都 是 为 了 回答 这 些 问 题 。 


习题 1-4 


学 习 统计 学 的 最 好 方法 就 是 从 一 个 自己 感 兴趣 的 项 目 开 始 。 有 没有 ”第 一 胎 宝 宝 出生 较 晚 * 这 类 
吸引 你 的 问题 来 研究 ? 


思考 自己 感 兴 趣 的 问题 ， 例 如 传统 观念 、 有 争议 的 话题 或 是 有 社会 影响 的 问题 ， 看 看 你 能 否 
将 这 些 问 题 转换 成 统计 学 问题 。 


寻找 能 解决 该 问题 的 数据 。 国 外 政府 是 很 好 的 数据 来 源 ， 因 为 公共 研究 的 数据 通常 都 是 免费 
的 [1】] 。 另 一 个 查找 数据 的 好 去 处 是 Wolfram Alpha， 其 中 收集 了 很 多 经 过 验证 的 高 质量 的 
数据 集 ， 网 址 是 http:/Wwolframalpha.com 。Wolfram Alpha 的 搜索 结果 是 有 版 权限 制 的 ， 在 使 
用 之 前 应 该 阅读 一 下 协议 。 


[1] 在 撰写 这 段 内 容 的 时 候 ， 英 国 某 法 院 规 定 “ 信 息 自 由 法 案 ”(Freedom of Information 
Act) 也 适用 于 科学 研究 数据 。 


Google 和 其 他 的 一 些 搜索 引擎 也 能 帮 你 寻找 数据 ， 但 网 络 上 各 种 资源 的 质量 高 低 不 一 ， 判 断 
起 来 不 容易 。 


如 果 发 现 已 经 有 人 回答 了 你 的 问题 ， 要 仔细 看 看 回答 是 否 合理 。 数 据 和 分 析 中 的 缺陷 可 能 会 
导致 结论 不 可 靠 。 如 果 是 这 样 ， 你 应 该 采用 不 同 的 方法 来 分 析 数 据 ， 或 者 是 寻找 其 他 更 好 的 
数据 来 源 。 


如 果 已 发 表 的 论文 回答 了 你 的 问题 ， 那 就 点 该 能 弄 到 原始 数据 ， 很 多 作者 都 会 在 网 上 提供 。 
但 如 果 数 据 涉 及 个 人 隐私 ， 最 好 联系 一 下 作者 ， 告 诉 他 你 要 如 何 使 用 数据 ， 或 是 接受 特定 的 
使 用 协议 。 坚 持 到 底 ! 


统计 思维 : 程序 员 数 学 之 概率 统计 


1.5 显著 性 
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1.6 术语 


经 验 之 谈 (anecdotal evidence) 个 人 随意 收集 的 证 据 ， 而 不 是 通过 精心 设计 并 经 过 研究 
得 到 的 。 

直观 效应 (apparent effect) 表示 发 生 了 某 种 有 意思 的 事情 的 度量 或 汇总 统计 量 。 

人 为 (artifact) 由 于 偏差 、 测 量 错误 或 其 他 错误 导致 的 直观 效应 。 

队列 (cohort) 一 组 被 调查 者 。 

横断 面 研 究 (cross-sectional study) 收集 群体 在 特定 时 间 点 的 数据 的 研究 。 

字段 (field) 数据 库 中 组 成 记录 的 变量 名 称 。 

纵 贯 研究 (longitudinal study) 跟踪 群体 ， 随 着 时 间 推 移 对 同一 组 人 反复 采集 数据 的 研 
究 。 

过 采样 (oversampling) ee + 少 ， 而 增加 某 个 子 群体 代表 的 数量 。 

总 体 (population) 要 研究 的 一 组 事物 ， 通 常 是 一 群 人 ， 但 这 个 术语 也 可 用 于 动物 、 蔬 菜 
和 矿产 。 

原始 数据 (raw data) 未 经 或 只 经 过 很 少 的 检查 、 计 算 或 解读 而 采集 和 重 编 码 的 值 。 
重 编码 (recode) 通过 对 原始 数据 进行 计算 或 是 其 他 逻辑 处 理 得 到 的 值 。 

记录 (record) 数据 库 中 关于 一 个 人 或 其 他 对 象 的 信息 的 集合 。 

代表 性 (representative) ”如果 人 群 中 的 每 个 成 员 都 有 同等 的 机 会 进入 样本 ， 那 么 这 个 样 
本 就 具有 代表 性 。 

被 调查 者 (respondent) 参与 调查 的 人 。 

样本 (sample) 总 体 的 一 个 子 集 ， 用 于 收集 数据 。 

统计 显著 (statistically significant) 若 一 个 直观 效应 不 太 可 能 是 由 随机 因素 引起 的 ， 就 是 
统计 显著 的 。 

汇总 统计 量 (summary statistic) 通过 计算 将 一 个 数据 集 为 结 到 一 个 数字 (或 者 是 少量 
的 几 个 数字 ) ， 而 这 个 数字 能 表示 数据 的 某 些 特点 。 

表 (table) 数据 库 中 若干 记录 的 集合 。 


描述 性 统计 量 


2.1 均值 和 平均 值 


前 一 章 提 到 了 三 个 汇总 统计 量 ， 均 值 、 方 差 和 中 位 数 ， 但 没有 解释 它们 的 具体 含义 。 在 介绍 
其 他 内 容 之 前 ， 我 们 先 来 看 看 这 三 个 统计 量 。 


如 果 有 一 个 包含 n 个 值 的 样本 xi， 那 么 它们 的 均值 就 等 于 这 些 值 的 总 和 除 以 值 的 数量 ， 即 : 


1 
st 


均值 (mean) 和 平均 值 (average) 在 很 多 情况 下 可 以 不 加 区 分 地 使 用 ， 但 这 里 还 要 强调 一 
下 两 者 的 区 别 : 


。 样本 的 “均值 "是 根据 上 述 公式 计算 出 来 的 一 个 汇总 统计 量 ; 
。“ 平 均值 "是 若干 种 可 以 用 于 描述 祥 本 的 典型 值 或 集中 趋势 (central tendency) 的 汇总 统 
计量 之 一 。 


有 时 候 均 值 可 以 很 好 地 描述 一 组 值 。 例 如 ， 茶 果 大 小 都 差不多 〈 至 少 在 超市 里 出 售 的 葵 果 都 
是 如 此 ) ， 因 此 ， 如 果 我 买 了 6 个 荃 果 ， 总 重量 是 3 镑 ， 那 么 就 可 以 说 每 个 荃 果 的 重量 大 概 是 
半 磅 。 


但 是 南瓜 就 不 一 样 了 。 假 如 我 在 花园 里 种 了 一 些 蔬 菜 ， 到 了 收获 的 时 候 ， 我 收获 了 三 个 装饰 
用 的 南瓜 ， 每 个 1 磅 重 ; 两 个 制 南 瓜 饼 的 南瓜 ， 每 个 3 磅 重 ; 还 有 一 个 重 达 591 磅 的 大 西洋 巨型 
南瓜 。 这 组 样本 的 均值 是 100 磅 ， 但 如 果 我 告诉 你 : "我 种 的 南瓜 的 平均 重量 是 100 磅 。" 那 就 
有 问题 了 ， 至 少 这 也 是 一 种 误导 。 


在 这 个 例子 中 ， 平 均值 是 没有 意义 的 ， 因 为 "典型 "的 南瓜 是 不 存在 的 。 


2.2 方 莽 


既然 一 个 值 无 法 概括 南瓜 的 重量 ， 那 两 个 值 应 该 会 好 一 些 : 均值 和 方差 。 
均值 是 为 了 描述 集中 趋势 ， 而 方差 则 是 描述 分 散 情况 。 一 组 值 的 方差 等 于 : 


7 1 


0 一 》 i 一 有) 

; 
其 中 mi 一 /叫做 离 均 差 〈deviation from the mean) ， 因 此 方差 为 该 偏差 的 方 均值 ， 这 也 是 用 
o2 表 示 的 原因 。 方 差 的 平方 根 c 叫 做 标准 差 。 
方差 本 身 不 太 好 解释 ， 其 中 一 个 问题 就 是 它 的 单位 很 奇怪 。 在 南瓜 重量 的 例子 中 ， 度 量 单位 
是 磅 ， 所 以 方差 的 单位 就 是 磅 的 平方 。 标 准 差 的 含义 就 明确 多 了 ， 在 上 例 中 单位 为 磅 。 
习题 2-1 


先 从 http://thinkstats.com/thinkstats.py 下 载 脚本 文件 ， 其 中 的 函数 在 整 本 书 中 都 会 有 用 。 这 些 
函数 的 文档 可 以 参考 这 里 http://thinkstats.com/thinkstats.html。 


编写 一 个 Pumpkin 画 数 ， 并 调用 thinkstats.py 中 的 函数 计算 上 一 节 中 南瓜 重量 的 均值 、 方 差 和 
标准 差 。 
习题 2-2 


重用 survey.py 和 first.py 中 的 代码 计算 第 一 胎 宝 宝 的 怀孕 周期 和 其 他 宝宝 的 怀孕 周期 的 标准 
差 。 这 两 组 数据 的 分 散 情况 一 样 吗 ? 


跟 标 准 差 的 差异 相 比 ， 均 值 的 差异 有 多 大 ? 对 于 该 差异 的 统计 显著 性 ， 这 个 比较 说 明了 什 
么 ? 


如 果 以 前 接触 过 方差 ， 你 会 发 现 通常 我 们 在 依据 样本 估计 方差 时 ， 计 算 公 式 中 使 用 的 除数 是 n- 
1， 而 不 是 n， 这 个 统计 量 叫做 "样本 方差 "。 第 8 章 我 们 会 再 次 介绍 这 个 概念 。 


2.3 分 布 


汇总 统计 量 简单 明了 ， 但 风险 也 大 ， 因 为 它们 很 有 可 能 会 掩盖 数据 的 真相 。 另 一 种 方法 就 是 
看 数据 的 分 布 (distribution) ， 它 描述 了 各 个 值 出 现 的 频繁 程度 。 


表示 分 布 的 最 常用 的 方法 是 直方 图 (histogram) ， 这 种 图 用 于 展示 各 个 值 出 现 的 频数 或 概 


在 这 里 ， 频 数 指 的 是 数据 集中 一 个 值 出 现 的 次 数 ， 跟 声音 的 音 高 和 无 线 电 讯号 的 调频 没有 关 
系 。 概 率 就 是 频数 除 以 样本 大 小 n。 


在 Python 中 ， 计 算 频 数 最 简单 的 方法 就 是 用 字典 。 给 定 一 个 序列 t : 


hist = 人 
RC 2 un le 
hist[x] = hist.get(x, 0) + 1 


导 到 的 结果 是 一 个 将 值 映 射 到 其 频数 的 字典 。 将 其 除 以 n 即 可 把 频数 转换 成 概率 ， 这 称 为 归 一 
化 (normalization) : 


n = float(len(t)) 

pmf = {} 

for x, freq in hist.items(): 
pmf[x] = freq / n 


轨 一 化 之 后 的 直方 图 称 为 PMF (Probability Mass Function， 概 率 质 量 画 数 ) ， 这 个 函数 是 值 
到 其 概率 的 映射 (习题 6-5 中 会 介绍 “质量 "的 含义 ) 。 


将 Python 中 的 字典 称 为 函数 可 能 会 让 部 分 读者 感到 困惑 。 在 数学 中 ， 画 数 就 是 一 组 值 到 另 一 
组 值 的 上 映射。 在 Python 中 ， 我 们 通常 用 画 数 对 象 表 示 数 学 中 的 函数 ， 但 这 个 例子 中 用 的 是 字 
典 (字典 也 被 称 为 “映射 ”， 所 以 称 其 为 "西数 "也 是 可 以 理解 的 ) 。 


4 直方 图 的 表示 


我 编写 了 一 个 名 叫 Pmf.py 的 Python 模块 ， 其 中 定义 了 用 于 表示 直方 图 的 Hist 对 象 ， 以 及 表示 
PMF 的 Pmf 对 象 。 可 从 http://thinkstats.com/Pmf.html 阅 读 它 的 文档 ， 从 
http://thinkstats.com/Pmf.py 下 载 源 代码 。 


MakeHistFromList 函 数 接受 一 串 值 ， 并 返回 一 个 新 的 Hist 对 象 。 可 以 在 Python 的 交互 模式 下 测 
试 一 下 : 


>>> import Pmf 

>>> hist = Pmf.MakeHistFromList([1, 2, 2, 3, 5]) 
>>> print hist 

<Pmf .Hist object at 0xb76cf68c> 


Pmf.Hist 的 意思 是 这 个 对 象 属于 Pmf 模 块 中 定义 的 Hist 类 。 一 般 情 况 下 ， 书 中 的 类 和 加 数 名 首 
字母 大 写 ， 变 量 名 首 字 母 小 写 。 


Hist 对 象 提 供 了 查找 值 及 其 概率 的 方法 。Freq 方 法 接收 一 个 值 ， 并 返回 它 的 频数 : 


>>> hist.Freq(2) 
之 


如 果 所 查找 的 值 不 存在 ， 那 么 频数 就 是 0。 


>>> hist.Freq(4) 
0 


Values 方 法 会 返回 未 经 排序 的 Hist 类 的 对 象 的 所 有 值 : 


>>> hist.Values() 
[ab 5 3, 2] 


要 按 序 表 历 这 些 值 ， 可 以 用 内 置 的 sorted 辑 数 : 


for val in sorted(hist.Values()): 
print val, hist.Freq(val) 


如 果 要 查找 所 有 的 频数 ， 用 Iltems 会 更 高 效 。 它 会 返回 一 组 未 经 排序 的 值 - 频 数 对 : 


for val, freq in hist.Items() : 


print val, freq 


习题 2-3 

一 个 分 布 的 众 数 就 是 它 的 最 频繁 值 ( 见 http://wikipedia.org/wiki/Mode (statistics)) 。 编 写 一 
个 Mode 画 数 ， 以 Hist 对 象 为 参数 ， 返 回 最 频繁 值 。 

再 来 一 个 更 有 挑战 的 ， 编 写 一 个 AlIModes 本 数 ， 参 数 还 是 Hist 对 象 ， 但 返回 的 是 按照 频数 降序 
排列 的 值 - 频 数 对 。 提 示 : operator 模 块 中 有 个 itemgetter 函 数 可 以 按键 值 排序 。 


2.5 绘制 直方 图 


Python 中 有 不 少 画图 的 包 。 这 里 我 们 要 演示 的 是 pyplot， 来 自 
matplotlib (http://matplotlib.sourceforge.net) 。 


很 多 Python 安装 程序 中 都 带 有 这 个 包 。 和 启 动 Python 解释 器 ， 输 入 以 下 命令 就 可 以 查看 是 否 安 
装 了 这 个 包 : 
Import matplotlib.pyplot as pyplot 


pyplot.pie([1,2,3]) 
pyplot. show( ) 


如 果 安 装 了 matplotlib， 就 点 该 能 看 到 一 个 饼 图 ， 否 则 就 说 明 还 没有 安装 。 
直方 图 和 概率 质量 函数 通常 画 成 条 状 图 。pyplot 中 绘制 条 状 图 的 函数 是 par。 Hist 对 象 中 有 一 个 


Render 方 法 ， 会 返回 一 个 排序 后 的 值 列表 ， 以 及 相应 的 频数 ， 下 面 是 bar 函 数 所 需 的 参数 : 


>>> vals, freqs = hist.Render() 
>>> rectangles = pyplot.bar(vals, freqs) 
>>> pyplot. show() 


我 编 守 了 一 个 myplot.py， 提 供 了 绘制 直方 图 的 函数 、 概 率 质量 函数 ， 以 及 你 将 要 看 到 的 其 他 
对 象 。 它 的 文档 在 thinkstats.com/myplot.html 上 ， 从 thinkstats.com/myplot.py 可 以 下 载 到 代 
码 。 或 者 你 喜欢 的 话 ， 也 可 以 直接 用 pyplot， 可 以 在 网 上 找到 它 的 文档 。 


图 2-1 是 第 一 胎 婴 儿 和 非 第 一 胎 婴 儿 怀 孕 周 期 直方 图 。 


直方 图 


书 _ ] 第 一 胎 轴 儿 
时 非 第 一 胎 婴 儿 





图 2-1 怀孕 周期 直方 图 
直方 图 很 有 用 ， 因 为 它 可 以 非常 直观 地 展现 数据 的 以 下 特征 。 


0》 


。 众 数 分 布 中 出 现 次 数 最 多 的 值 叫做 众 数 。 在 图 2-1 中 ， 众 数 显 然 是 在 39 周 ， 众 数 是 最 适 
描述 典型 值 的 汇总 统计 量 。 

。 形状 以 众 数 为 中 心 ， 整 个 分 布 是 不 对 称 的 ; 在 右 侧 下 降 很 快 ， 而 在 左 侧 下 降 比 较 慢 。 从 
医学 的 角度 来 看 ， 这 是 对 的 。 宝 宝 经 常会 提前 来 到 这 个 世界 ， 但 却 很 少 有 呆 在 妈妈 肚子 
里 超过 42 周 的 。 此 外 ， 分 布 的 右 侧 到 了 42 周 就 被 截断 了 ， 因 为 到 了 这 个 时 候 医 生 会 采取 
必要 的 措施 。 

。 异常 值 远离 众 数 的 值 叫 做 异常 值 (outlier) 。 其 中 有 些 只 是 罕见 情况 ， 上 比如 30 周 出 生 的 
宝宝 。 但 有 些 很 有 可 能 是 汇总 或 者 记录 数据 的 某 个 环节 中 的 失误 导致 的 。 


直方 图 直观 地 展示 了 数据 的 一 些 特征 ， 但 通常 比较 两 个 分 布 时 意义 不 大 。 在 这 个 例子 中 ，“ 第 
一 胎 婴 儿 ” 的 数量 要 比 “ 非 第 一 胎 婴 儿 ” 的 数量 少 。 因 此 ， 直 方 图 中 某 些 明 显 差异 是 由 样本 大 小 
造成 的 。 可 以 用 PMF 来 解决 这 个 问题 。 





2.6 表示 概率 质量 函数 


Pmf.py 中 定义 了 用 于 表示 概率 质量 画 数 的 Pmf 类 。 这 里 稍微 解释 一 下 : Pmf 是 模块 的 名 称 ， 也 
是 类 的 名 称 ， 因 此 这 个 类 的 全 称 是 Pmf.Pmf。pmf 则 通常 被 我 用 做 变量 名 。 在 正文 中 ， 我 用 
PMF 指 代 通 常 意 义 上 的 概率 质量 画 数 ， 这 个 简写 与 我 的 实现 无 关 。 


用 MakePmfFromList 方 法 创建 Pmf 对 象 ， 其 参数 是 一 组 值 : 


>>> import Pmf 

>>> pmf = Pmf.MakePmfFromList([1, 2, 2, 3, 5]) 
>>> print pmf 

<Pmf.Pmf object at 0xb76cf68c> 


Pmf 对 象 跟 Hist 对 象 有 很 多 类 似 的 地 方 ， 两 者 的 Values 方 法 和 |tems 方 法 是 一 样 的 。 最 大 区 别 在 
于 Hist 是 将 值 映 射 到 一 个 用 整数 表示 的 数量 ， 而 Pmf 是 将 值 映 射 到 一 个 用 浮 点 数 表示 的 概率 。 


用 Prob 查 看 给 定 值 的 概率 : 


>>> pmf .Prob(2) 
0.4 


可 以 通过 增加 某 个 值 的 概率 来 修改 现 有 的 Pmf : 


>>> pmf.Incr(2，0.2) 
>>> pmf.Prob(2) 
0.6 


还 可 以 将 概率 扩大 若干 倍 : 


>>> pmf .Mult(2, 0.5) 
>>> pmf .Prob(2) 
(0s 


如 果 修改 Pmf， 有 可 能 导致 整个 PMF 不 再 是 为 一 化 的 ， 也 就 是 说 所 有 概率 的 总 和 不 再 等 于 1。 
可 以 用 Total 方 法 检查 一 下 ， 该 方法 会 返回 所 有 概率 的 总 和 : 


>>> pmf.Total() 
Js， 


要 重新 为 一 化 ， 调 用 Normalize : 


>>> pmf.Normalize() 
>>> pmf.Total() 
0 


Pmf 对 象 提 供 的 Copy 方 法 可 以 复制 Pmf 对 象 ， 修 改 复制 出 来 的 Pmf 对 象 不 会 影响 原来 的 数据 。 


习题 2-4 
根据 维基 百科 :“ 生 存 分 析 是 统计 学 的 一 个 分 支 ， 涉 及 生物 体 的 死亡 和 机 械 系统 故障 。” 详 见 
http://wikipedia.org/wiki/Survival_analysis。 


作为 生存 分 析 的 一 部 分 ， 计 算 剩余 使 用 寿命 (例如 某 个 机 械 部 件 还 能 用 多 长 时 间 ) 是 大 有 用 
处 的 。 如 果 知道 使 用 寿命 的 分 布 和 部 件 的 使 用 时 间 ， 就 可 以 计算 出 剩余 使 用 寿命 的 分 布 。 


编写 一 个 函数 RemainingLifetime， 参 数 是 表示 使 用 寿命 的 Pmf 对 象 和 使 用 时 间 ， 返 回 一 个 表 
示 剩 余 使 用 寿命 分 布 的 Pmf 对 象 。 


习题 2-5 


2.1 节 介绍 过 ， 通 过 累加 各 个 元 素 并 除 以 n 可 以 算出 样本 的 均值 。 对 于 给 定 的 PMF， 也 可 以 算 
出 均值 ene 


HL 一 Ep 


其 中 zw; 是 PMF 中 的 值 ，p; = PMF(x;)。 同 样 ， 也 可 以 计算 方差 : 


-2 py — 1 


编写 两 个 图 数 ，PmfMean 和 PmfVar， 两 者 的 参数 都 是 一 个 Pmf 对 象 ， 分 别 计算 它 的 均值 和 方 
差 。 看 一 看 结果 是 否 跟 Pmf.py 中 的 Mean 和 Var 方法 的 结果 一 致 。 


I 概率 质量 图 数 


绘制 Pmf 的 常用 方法 有 以 下 两 种 。 


。 采用 柱状 图 ， 可 以 用 pyplot.bar 或 myplot.Hist。 如 果 Pmf 中 的 值 不 多 ， 柱 状 图 就 比较 合 
。 采用 折线 图 ， 可 以 用 pyplot.plot 或 者 myplot.Pmf。 如 果 Pmf 中 的 值 较 多 ， 且 比较 平滑 ， 折 
线 图 就 比较 合适 。 


图 2-2 用 柱状 图 展示 了 怀孕 周期 的 PMF。 借 助 PMF， 我 们 可 以 更 清晰 地 看 出 分 布 的 差异 。 第 一 
台 婴 儿 似 乎 较 少 按时 出 生 (39 周 ) ， 而 倾向 于 比 这 个 时 间 晚 一 些 (41 周 或 42 周 ) 。 


PMF 





图 2-2 怀孕 周期 的 PMF 


生成 本 章 图 片 的 代码 可 以 从 http://thinkstats.com/descriptive.py 下 载 。 运 行 代 码 需 要 安装 其 所 
需 的 模块 和 NSFG 的 数据 (参见 1.3 节 ) 。 


注意 : pyplot 中 的 hist 范 数 接受 一 个 序列 ， 然 后 计算 其 直方 图 ， 并 画 出 来 。 因 为 我 用 的 是 Hist 
对 象 ， 所 以 通常 不 使 用 pyplot.hist。 


2.8 异常 值 


异常 值 就 是 远离 集中 趋势 的 值 。 异 常 值 有 可 能 是 采集 和 处 理 数据 过 程 中 的 错误 导致 的 ， 也 有 
可 能 是 罕见 的 正确 结果 。 很 有 必要 检查 异常 值 ， 有 时 对 这 些 异 常 值 修剪 〈trim) 既 恰 当 又 十 分 
有 用 。 


在 活 婴 的 怀孕 周期 数据 中 ， 最 低 的 十 个 值 是 {0, 4, 9, 13, 17, 17, 18, 19, 20, 21}。 低 于 20 周 的 
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值 肯定 是 错误 的 ， 只 有 高 于 30 周 的 值 正 确 的 可 能 性 才 比 较 大 。 介 于 两 者 之 间 的 值 就 很 难 解释 
Ts 


另 一 方面 ， 最 大 的 几 个 值 分 别 是 : 


weeks count 
43 148 
44 46 
45 10 
46 1 
47 1 
48 7 
SO 之 


强调 一 下 ， 有 些 值 很 有 可 能 是 错误 的 ， 但 不 好 说 。 一 种 处 理 方法 是 对 一 定 比 例 的 最 高 和 最 低 
值 修剪 (参见 http://wikipedia.org/wiki/Truncated_mean) 。 


统计 思维 : 程序 员 数 学 之 概率 统计 


2.9 其 他 可 视 化 方法 


直方 图 和 PMF 在 探索 性 数据 分 析 中 很 有 用 : 如 果 你 对 数据 的 含义 有 基本 认识 ， 设 计 一 个 能 展 
示 直 观 效应 的 可 视 化 方法 通常 会 有 所 帮助 。 

在 NSFG 数 据 中 ， 明 显 的 分 布 差异 出 现在 众 数 附近 。 所 以 有 必要 放大 图 的 这 一 部 分 ， 变 换 一 下 
数据 ， 从 而 突出 差异 。 

图 2-3 中 是 PMF 在 35~45 周 间 的 差异 。 将 结果 乘 以 100， 表 示 差 异 的 百分比 。 


PMEF 之 间 的 差异 


一 2 
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图 2-3 按 周 统 计 的 婴儿 出 生 百 分 比 差 异 
这 样 分 布 趋势 就 非常 清晰 了 : 第 一 胎 婴 儿 较 少 在 39 周 出 生 ， 通 常 是 在 41 周 和 42 周 出 生 。 








过 
详 
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2.10 相对 风险 


我 们 一 开始 就 提出 了 这 个 问题 : 第 一 胎 宝宝 出 生 较 晚 吗 ? 让 我 们 明确 一 下 ， 如 果 宝宝 在 第 37 
周 或 更 早出 生 ， 那 就 是 提前 出 生 ; 准时 出 生 则 是 在 第 38 到 第 40 周 ; 而 延 后 出 生 虽 是 在 41 周 或 
更 晚 。 这 关 用 于 数据 分 组 的 范围 称 为 区 间 (bin) 。 


习题 2-6 


建 一 个 risk.py 文 件 。 编 写 范 数 ProbEarly、ProbOnTime 和 ProbLate， 以 PMF 为 参数 ， 计 算 各 
个 时 间 区 间 出 生 的 婴儿 所 占 的 比例 。 提 示 : 可 以 写 一 个 通用 函数 实现 这 三 个 函数 的 功能 。 


准备 三 个 PMF， 一 个 是 第 一 胎 婴 儿 的 ， 一 个 是 非 第 一 胎 婴 儿 的 ， 还 有 一 个 是 所 有 婴儿 的 。 计 
算 每 个 PMF 中 提前 出 生 、 准 时 出 生 和 延 后 出 生 的 婴儿 的 概率 。 


可 以 用 相对 风险 (relative risk) 来 概括 类 似 的 数据 ， 它 代表 两 个 概率 的 比值 。 例 如 ， 第 一 胎 
提前 出 生 的 概率 是 18.2%。 非 第 一 胎 婴 儿 提 前 出 生 的 概率 是 16.8%， 因 此 相对 风险 就 是 1.08。 
这 意味 着 第 一 胎 较 其 他 几 胎 更 早出 生 的 可 能 性 有 8%。 


编写 代码 确认 该 结果 ， 然 后 计算 准时 出 生 和 延 后 出 生 的 相对 风险 。 可 以 从 
http://thinkstats.com/risk.py 下 载 答案 。 


2.11 条 件 概率 

假设 你 认识 的 某 个 人 怀孕 了 ， 现 在 是 第 39 周 的 开始 ， 那 么 宝宝 这 一 周 出 生 的 概率 是 多 少 ? 如 
果 这 是 第 一 胎 的 话 ， 答 案 会 有 什么 变化 ? 

我 们 可 以 通过 计算 条 件 概率 来 回答 这 些 问题 。 所 谓 条 件 概 率 (conditional probability) 就 是 依 
赖 于 某 个 条 件 的 概率 。 在 这 里 ， 条 件 就 是 已 知 宝宝 没有 在 前 38 周 出 生 。 

下 面 是 一 种 计算 方法 。 


1.， 根据 PMF 生 成 一 个 1000 名 孕妇 的 模拟 人 群 。 对 于 每 个 周 数 x， 怀 孕 x 周 的 孕妇 人 数 为 
1000PMF(x)。 

2.， 删除 所 有 怀孕 周 数 不 足 39 的 孕妇 。 

3 计算 余 下 怀孕 周期 的 PMF， 这 就 是 一 个 条 件 PMF。 

4， 计算 x=39 时 条 件 PMF 的 值 。 


这 个 算法 的 概念 很 简单 ， 但 效率 不 高 。 一 种 简单 的 替代 方案 是 将 小 于 39 的 值 从 分 布 中 删除 ， 
然后 重新 将 数据 为 一 化 。 
习题 2-7 


编写 一 个 图 数 实现 上 述 任意 一 个 算法 ， 计 算 宝 宝 在 第 39 周 出 生 的 概率 (假设 宝宝 没有 在 39 周 
前 出 生 ) 。 


将 该 函数 扩展 成 可 以 计算 宝宝 在 任意 第 x 周 出 生 的 概率 (假设 宝宝 没有 在 x 周 之 前 出 生 ) 。 画 
出 第 一 胎 宝宝 和 其 他 宝宝 的 该 值 与 x 的 本 数 关系 图 。 


答案 可 以 从 http://thinkstats.com/conditional.py 下 载 。 


2.12 汇报 结 


至 此 ， 我 们 已 经 初步 探索 了 数据 ， 看 到 了 一 些 直 观 效应 。 现 在 ， 假 设 这 些 结果 都 是 真实 的 

(但 要 记 住 ， 这 只 是 一 个 假设 ) ， 我 们 怎么 汇报 这 些 结果 ? 

不 同 的 人 需要 不 同 的 答案 。 例 如 ， 科 学 家 可 能 对 实际 效果 更 感 兴趣 ， 无 论 多 小 。 医 生 可 能 只 
关注 临床 上 有 重要 意义 的 结果 ， 也 就 是 会 影响 治疗 决策 的 结果 。 而 孕妇 可 能 更 关心 与 自身 密 
切 相 关 的 东西 ， 例 如 前 一 节 中 介绍 的 条 件 概 率 。 

如 何 汇 报 结果 还 取决 于 具体 目的 。 如 果 是 要 证 明 某 种 影响 的 显著 性 ， 可 以 选择 汇总 统计 量 ， 

如 强调 差异 的 相对 风险 。 如 果 是 要 说 服 某 个 患者 ， 则 可 以 选择 能 反映 特定 情况 下 差异 的 统计 


量 。 
习题 2-8 


根据 前 面 练 习 得 到 的 结果 ， 假 设 要 对 结果 进行 总 结 ， 判 断 第 一 胎 宝 宝 是 否 出 生 较 晚 。 


如 果 想 从 晚间 新 闻 获 取 一 则 故事 ， 应 该 选择 哪个 汇总 统计 量 ? 要 让 有 某 位 焦虑 的 患者 放松 心 
情 ， 该 选择 哪些 统计 量 ? 


后 ， 假 设 你 是 The Straight Dope (http://straightdope.com) 的 作者 Cecil Adams， 你 的 任 
回答 “第 一 胎 宝 宝 出 生 较 晚 吗 ?3 "这 个 问题 。 用 本 章 中 的 结果 写 一 段 文字 ， 清 晰 、 准 确 地 回 


[二 | 
了 
务 是 

答 该 问题 。 


2.13 术语 表 


区 间 (bin) 将 相近 数值 进行 分 组 的 范围 。 


集中 趋势 (central tendency) 样本 或 总 体 的 一 种 特征 ， 直 观 来 说 就 是 最 能 代表 平均 水 


平 的 值 。 


临床 上 有 重要 意义 (clinically significant) 分 组 间 差 异 等 跟 实践 操作 有 关 的 结果 。 


条 件 概 率 (conditional probability) 某 些 条 件 成 立 的 情况 下 计算 出 的 概率 。 
分 布 (distribution) 对 样本 中 的 各 个 值 及 其 频数 或 概率 的 总 结 。 

频数 (frequency) 样本 中 某 个 值 的 出 现 次 数 。 

直方 图 (histogram) 从 值 到 频数 的 了 映射， 或 者 表示 这 种 映射 关系 的 图 形 。 
众 数 (mode) 样本 中 频数 最 高 的 值 。 

轨 一 化 (normalization) 将 频数 除 以 样本 大 小 得 到 概率 的 过 程 。 

异常 值 (outlier) 远离 集中 趋势 的 值 。 

概率 (probability) 频数 除 以 样本 大 小 即 得 到 概率 。 


概率 质量 函数 (Probability Mass Function，PMF) 以 函数 的 形式 表示 分 布 ， 


值 映 射 到 概率 。 

相对 风险 (relative risk) 两 个 概率 的 比值 ， 通 常用 于 衡量 两 个 分 布 的 差异 。 
分 散 (spread) 祥 本 或 总 体 的 特征 ， 直 观 来 说 就 是 数据 的 变动 有 多 大 。 
标准 关 (standard deviation) 方差 的 平方 根 ， 也 是 分 散 的 一 种 度量 。 
修剪 (trim) 删除 数据 集中 的 异常 值 。 

方差 (variance) 用 于 量化 分 散 程度 的 汇总 统计 量 。 


Lt 


第 3 章 累积 分 布 酌 数 


3.1 选课 人 数 之 迹 


在 大 部 分 美国 高 校 ， 羡 生 比 例 都 在 1 : 10 左 右 。 但 学 生 经 常会 发 现 ， 一 门 课程 的 平均 选修 人 数 
会 超过 10。 这 其 中 有 两 个 原因 。 
。 学 生 每 学 期 通常 会 上 4 到 5 门 课 程 ， 但 一 个 教授 通常 只 会 教 一 两 门 课 。 
。 喜欢 小 班 (选课 人 数 少 ) 的 学 生 人 数 往往 很 少 ， 而 参加 大 班 (选课 人 数 多 ) 的 学 生 人 数 
特别 多 。 
第 一 点 很 明显 (至 少 我 指出 后 你 就 能 明白 ) ， 第 二 点 就 不 是 那么 直观 了 。 让 我 们 看 一 个 例 
子 。 某 个 学 校 某 学 期 开设 了 65 门 课程 ， 每 门 课程 的 选课 人 数 分 布 如 下 : 


人 数 课程 数 

5~9 8 
10~14 8 
15~19 14 
20~24 4 
25~29 6 
30~34 12 
35~39 8 
40~44 3 
45~49 2 


如 果 我 们 问 院 长 ， 平 均 每 门 课程 的 选课 人 数 是 多 少 ? 他 会 构建 一 个 PMF， 计 算出 均值 ， 然 后 
告诉 你 平均 每 门 课程 有 24 个 人 选修 。 


但 如 果 你 找 学 生 做 调查 ， 询 问 他 们 参加 的 课程 有 多 少 学生 ， 然 后 计算 平均 值 ， 所 得 到 的 每 门 
课程 的 平均 人 数 就 会 多 不 少 。 

习题 3-1 

按照 院 长 的 方法 构建 这 些 数据 的 PMF， 并 计算 均值 。 因 为 数据 是 分 组 的 ， 所 以 可 以 用 每 组 的 
中 点 值 。 

然后 再 从 学 生 的 角度 来 构建 选课 人 数 的 分 布 ， 并 计算 均值 。 


假设 想 要 得 到 学 校 每 门 课程 选课 人 数 的 分 布 情况 ， 但 又 无 法 从 院 长 那里 得 到 可 信 的 数据 。 其 
中 一 种 解决 办 法 是 随机 选择 一 组 学 生 ， 然 后 询问 他 们 所 选课 程 的 上 课 人 数 。 然 后 可 以 根据 调 
查 的 结果 计算 出 PMF。 


这 个 结果 是 有 偏差 的 。 因 为 选修 人 数 多 的 课程 会 被 过 采样 ， 所 以 在 估计 选课 人 数 真 实 分 布 时 
要 对 观察 到 的 分 布 做 一 个 合适 的 变换 。 

编写 一 个 UnbiassPmf 范 数 ， 参 数 是 观察 值 的 PMF， 返 回 据 此 估计 出 的 表示 选课 人 数 分 布 的 Pmf 
对 象 。 


答案 可 以 从 http://thinkstats.com/class_size.py 下 载 。 


习题 3-2 


在 大 部 分 的 田径 比赛 中 ， 选 手 都 是 同时 出 发 的 。 如 果 跑 得 快 ， 那 么 在 比赛 刚 开 始 的 时 候 会 超 
过 很 多 人 ， 但 在 跑 出 几 英 里 后 你 就 会 发 现 ， 周 围 都 是 跟 你 速度 差不多 的 选手 。 


我 第 一 次 参加 长 跑 (209 英 里 ) 接力 时 ， 注 意 到 一 个 奇怪 的 现象 : 当 我 超过 其 他 选手 时 ， 我 会 
跑 得 更 快 ; 当 其 他 选手 超过 我 时 ， 他 们 通常 也 会 跑 得 更 快 。 


一 开始 ， 我 觉得 速度 的 分 布 是 两 级 分 化 的 : 速度 快 和 速度 慢 的 人 都 很 多 ， 但 跟 我 速度 差不多 
的 人 应 该 不 多 。 


但 随后 我 发 现 我 的 选择 是 有 偏差 的 。 这 个 比赛 有 两 个 特点 : 分 阶段 出 发 ， 不 同 的 队伍 出 发 时 
间 也 不 同 ; 此 外 ， 同 一 个 队伍 中 选手 的 水 平 也 参差 不 齐 。 


因此 ， 选 手 在 比赛 道路 上 所 处 的 位 置 与 其 速度 和 名 次 没有 什么 关系 。 在 我 开始 跑 时 ， 我 周转 
的 参赛 选手 基本 上 是 随机 的 。 


那 这 其 中 的 偏差 来 自 何 欠 ?在 整个 比赛 过 程 中 ， 超 过 其 他 选手 或 者 是 被 其 他 选手 超过 的 概率 
跟 选 手 间 速度 差异 的 大 小 是 有 关 的 。 为 什么 ? 想 想 最 极端 的 情况 。 如 果 我 跟 另 外 一 个 比赛 选 
手 的 速度 完全 一 样 ， 那 我 们 就 不 可 能 超过 对 方 ， 也 不 可 能 被 对 方 超过 。 如 果 某 个 选手 跑 得 特 
别 快 ， 在 我 跑 的 过 程 中 跑 完 了 全 程 ， 那 这 位 选手 肯定 会 在 某 个 地 方 超过 我 。 

写 一 个 BiassPmf 函 数 ， 其 参数 是 表示 选手 速度 实际 分 布 的 Pmf 和 观察 者 的 速度 ， 返 回 值 是 一 个 
新 的 Pmf， 表 示 其 他 选手 相对 观察 者 的 速度 分 布 。 


用 一 般 的 道路 比赛 〈 不 是 接力 赛 ) 的 数据 测试 酚 数 。 我 写 了 一 个 程序 读 取 马 萨 诸 塞 州 Dedham 
的 James Joyce Ramble 一 万 米 比 赛 的 数据 ， 并 将 每 个 选手 的 速度 单位 转换 成 MPH。 可 以 从 
http://thinkstats.com/relay.py 下 载 这 个 程序 。 运 行 该 程序 ， 看 看 速度 的 PMF。 


现在 假设 你 以 7.5 MPH 的 速度 参加 这 个 比赛 ， 计 算 你 所 观察 到 的 选手 的 速度 分 布 。 可 以 从 这 里 
下 载 答案 : http://thinkstats.com/relay_soln.py。 


3.2 PMF 的 不 足 


如 果 要 处 理 的 数据 比较 少 ，PMF 很 合适 。 但 随 着 数据 的 增加 ， 每 个 值 的 概率 就 会 降低 ， 而 随 
机 噪声 的 影响 就 会 增 大 。 


例如 ， 假 设 我 们 对 新 生 儿 的 体重 分 布 感 兴趣 。 在 NSFG 的 数据 中 ， 变 量 totalwgt_oz 以 盘 司 
[1] 为 单位 记录 了 新 生 儿 的 体重 。 图 3-1 分 别 是 第 一 胎 宝宝 和 其 他 宝宝 的 体重 PMF。 这 也 说 
明了 PMF 的 一 个 不 足 之 处 : 很 难 做 比较 。 


[1] 英制 计量 单位 ，1 串 司 =28.350 克 。 一 一 编者 注 


新 生 儿 体重 PME 





体重 (以 网 司 为 单位 ) 


3-1 新 生 儿 体重 PMF 


整体 上 来 看 ， 这 两 个 分 布 都 是 钟 型 曲线 ， 均 值 附近 的 值 比较 多 ， 远 离 均值 的 较 大 值 和 较 小 值 
都 比较 少 。 

但 这 个 图 中 有 些 东 西 很 难 解读 。 其 中 有 很 多 峰值 和 低谷 ， 而 且 两 个 分 布 间 有 些 很 明显 的 差 
异 。 很 难说 哪些 特征 是 显著 的 。 此 外 ， 也 不 容易 分 辨 整体 的 模式 ， 上 比如 哪个 分 布 的 均值 比较 
大 ? 

通过 将 数据 分 组 可 以 解决 这 些 问 题 。 也 就 是 将 整个 区 域 分 成 若干 个 不 重 琶 的 区 间 ， 然 后 计算 
每 个 区 间 内 值 的 数量 。 分 组 很 有 用 ， 但 确定 分 组 区 间 的 大 小 就 需要 技巧 了 。 分 组 区 间 大 到 能 
够 消除 噪声 的 时 候 ， 也 会 把 有 用 的 信息 抹 掉 。 


另 一 个 解决 这 些 问题 的 方法 是 累积 分 布 函数 (Cumulative Distribution Function，CDF) 。 不 
过 在 介绍 CDF 之 前 ， 我 们 先 来 说 说 百 分 位 数 (percentile) 。 


3.3 百 分 位 效 


标准 化 考试 的 成 绩 一 般 会 以 两 种 形式 呈现 ， 一 种 是 原始 分 数 ， 另 一 种 则 是 百 分 等 级 
(percentile rank) 。 在 这 里 ， 百 分 等 级 就 是 原始 分 数 不 高 于 你 的 人 在 全 部 考试 人 数 中 所 占 的 
比例 再 乘 以 100。 所 以 ， 如 果 你 在 90 百 分 位 数 ， 那 就 是 说 你 比 90% 的 人 成 绩 好 ， 或 者 至 少 不 比 
90% 的 考试 人 员 差 。 


下 面 的 代码 可 以 计算 出 给 定 值 的 百 分 等 级 ， 这 里 给 定 值 是 your_score， 所 有 分 数 是 scores : 


def PercentileRank(scores, Vour score): 
count = 0 
for score in scores: 
If Score <= your_score: 
count += 1 


percentile _ rank = 100.0 * count / len(scores) 
return percentile_rank 


例如 ， 如 果 这 串 分 数 是 55、66、77、88 和 99， 而 你 的 分 数 是 88。 那 么 你 的 百 分 等 级 就 是 100 
* 4/5， 等 于 80。 


对 于 给 定 的 值 ， 很 容易 计算 出 百 分 等 级 ， 但 反 过 来 就 要 困难 些 。 对 于 给 定 的 百 分 等 级 ， 要 找 
到 对 应 的 值 ， 一 种 解决 方法 就 是 对 所 有 的 值 排序 ， 然 后 搜索 想 要 的 值 : 


defePenrcenmtalescoreseapercemeIhesrcanks 
scores.sort() 
for score in scores: 
If PercentileRank(scores, score) >= percentile_rank: 
return score 


结果 就 是 一 个 百 分 位 数 。 例 如 ，50 百 分 位 数 就 是 百 分 等 级 为 50 的 值 。 在 前 面 的 考试 分 数 分 布 
中 ，50 百 分 位 数 就 是 77。 
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前 面 实现 的 Percentile 的 效率 并 不 高 。 一 种 更 好 的 方法 是 用 百 分 等 级 计算 相应 的 百 分 位 数 的 素 
引 。 用 这 个 算法 实现 一 个 新 版 的 Percentile。 


答案 可 以 从 http://thinkstats.com/score_example.py 下 载 。 


习题 3-4 


选 做 : 如 果 要 计算 某 个 百 分 位 数 ， 采 用 分 数 排序 很 低 效 。 更 好 的 解决 办 法 是 用 选择 算法 ， 详 
见 http://wikipedia.org/wiki/Selection_algorithm。 


实现 选择 算法 ， 或 者 找 一 个 现成 的 实现 ， 用 它 编写 一 个 更 高 效 的 Percentile 函 数 。 


3.4 办 积分 布 落 数 


理解 了 百 分 位 数 ， 现 在 我 们 可 以 开始 学 习 累 积分 布 函 数 (CDF) 了 。CDF 函 数 就 是 值 到 其 在 
分 布 中 百 分 等 级 的 映射 。 


CDF 是 x 的 函数 ， 其 中 x 是 分 布 中 的 某 个 值 。 计 算 给 定 x 的 CDF( x )， 就 是 计算 样本 中 小 于 等 于 x 
的 值 的 比例 。 


以 下 画 数 的 参数 是 样本 t 和 值 x : 


QUeilacdiiikenx)R 
count = 0.0 
for value in t: 
if Value <= X: 
count += 1.0 


prob = count / len(t) 
return prob 


读者 应 该 很 熟悉 这 个 画 数 ， 这 跟前 面 的 PercentileRank 画 数 几乎 一 样 ， 唯 一 区 别 就 是 该 范 数 返 
回 的 结果 是 0 一 1 范围 内 的 概率 ， 而 不 是 0 一 100 范 围 内 的 百 分 等 级 。 


来 看 个 例子 ， 给 定 一 个 样本 {1, 2, 2, 3, 5}。 下 面 是 其 中 某 些 值 的 CDF : 


CDF(9) = 0 
CDF(1) = 0.2 
CDF(2) = 0.6 
CDF(3) = 0.8 
CDF(4) = 0.8 
CDF(5) = 1 


我 们 可 以 计算 任意 值 x 的 CDF， 而 不 仅 是 样本 中 出 现 的 值 。 如 果 x 比 样本 中 最 小 的 值 还 要 小 ， 
那么 CDF(x) 就 等 于 0。 如 果 x 比 样本 中 的 最 大 值 还 要 大 ， 那 么 CDF(x) 就 是 1。 


图 3-2 是 这 个 CDF 的 图 形 化 表示 。 样 本 的 CDF 是 一 个 阶梯 函数 。 在 下 一 章 ， 我 们 会 看 到 作为 连 
续 函 数 的 CDF 的 分 布 。 


统计 思维 : 程序 员 数 学 之 概率 统计 
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图 3-2 CDF 示 例 


3.4 累积 分 布 函 数 63 


3.5 CDF 的 表示 
我 编写 了 一 个 Cdf 模 块 ， 提 供 了 用 于 表示 CDF 的 Cdf 类 。 该 模块 的 文档 
在 http:/Wthinkstats.com/Cdf.html， 也 可 以 从 http:Wthinkstats.com/Cdf.py 下 载 。 


Cdf 是 用 两 个 有 序列 表 xs 和 ps 实现 的 : 其 中 xs 列 出 了 值 ，ps 列 出 了 概率 。Cdf 中 最 重要 的 方法 
如 下 所 示 。 


。 Prob(x) 对 于 给 定 值 x， 计 算 概 率 p=CDF(x)。 
。 Value(p) 对 于 给 定 概 率 5p， 计 算 相应 的 值 x， 也 就 是 p=CDF(x) 的 道 运 算 。 


因为 xs 和 ps 都 经 过 了 排序 ， 所 以 上 述 操作 都 可 以 使 用 对 分 算法 ， 效 率 很 高 。 运 行 时 间 跟 值 数 
量 的 对 数 成 正比 ， 详 见 http://wikipedia.org/wiki/Time_complexity。 


Cdf 还 有 Render 方 法 ， 它 会 返回 xs 和 ps 列表 ， 可 以 用 于 绘制 CDF 图 。 因 为 CDF 是 一 个 阶 跃 画 
数 ， 所 以 分 布 中 的 每 个 值 都 会 在 这 两 个 列表 中 分 别 有 对 应 的 元 素 。 


这 
Cdf 模 块 还 提供 了 几 个 生成 Cdf 的 函数 ， 包 括 MakeCdfFromList， 以 一 串 值 为 参数 ， 返 回 它们 
的 Cdf。 


最 后 要 说 一 下 ，myplot.py 中 的 Cdf 和 Cdfs 函 数 可 以 绘制 Cdf 折 线 图 。 
习题 3-5 


下 载 Cdf.py 和 relay.py (参见 习题 3-2) ， 画 出 跑步 速度 的 CDF 图 。 哪 个 画 数 可 以 更 好 地 看 出 分 
布 形状 ， 是 PMF 还 是 CDF ?代码 可 以 从 http://thinkstats.com/relay_cdf.py 下 载 。 


3.6 回 到 调查 数据 


3-3 是 NSFG 数 据 集中 第 一 胎 宝 宝 和 其 他 宝宝 出 生体 重 的 CDF。 
出 生体 重 的 CDF 





0 50 100 150 200 
体重 〈 以 盘 司 计 ) 


图 3-3 出 生体 重 的 CDF 
从 这 个 图 可 以 更 加 清楚 地 看 出 两 个 分 布 的 形状 和 两 者 的 差异 。 从 两 个 分 布 可 以 看 出 ， 我 们 可 
以 看 到 第 一 胎 宝 宝 的 体重 略 轻 ， 在 大 于 均值 的 部 分 有 较 大 的 差异 。 

习题 3-6 


你 出 生 时 有 多 重 ? 如 果 你 自己 不 知道 的 话 ， 可 以 打 电 话 给 你 妈妈 或 者 是 其 他 知道 的 人 问 问 。 

利用 所 有 活 婴 的 数据 计算 婴儿 出 生体 重 数 据 分 布 ， 然 后 算 算 你 在 其 中 的 百 分 等 级 。 如 果 你 是 
第 一 胎 出 生 的 ， 那 再 看 看 自己 在 第 一 胎 宝 宝 的 分 布 中 的 百 分 等 级 。 如 果 不 是 第 一 胎 出 生 的 ， 

那 就 看 看 你 在 其 他 宝宝 中 的 百 分 等 级 。 你 在 这 两 个 分 布 中 的 百 分 等 级 有 多 大 区 别 ? 
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假如 你 和 同学 都 计算 了 各 自 出 生体 重 的 百 分 等 级 ， 然 后 计算 了 百 分 等 级 的 CDF。 你 觉得 这 个 
分 布 会 是 什么 样子 ? 提示 : 预计 班 上 有 多 少 同学 会 在 中 位 数 以 上 。 


3.7 条 件 分 布 


所 谓 条 件 分 布 就 是 根据 某 个 条 件 选择 的 数据 子 集 的 分 布 。 


例如 ， 如 果 你 的 体重 略 高 于 平均 值 ， 但 身高 远 远 超过 平均 值 ， 那 么 就 你 的 身材 来 说 ， 你 可 能 
体重 偏 轻 。 如 何 才 能 更 精确 地 表述 这 个 情况 ? 


1， 选择 一 组 身高 跟 你 差不多 (在 一 定 范围 内 ) 的 人 。 
2. 算出 这 和 群 人 体重 的 CDF。 
3.， 找到 你 的 体重 在 该 分 布 中 的 百 分 等 级 。 


比较 来 自 不 同 测试 的 度量 结果 或 不 同 分 组 的 测试 结果 时 ， 百 分 等 级 非常 有 用 。 


例如 ， 参 加 田径 比赛 的 人 一 般 是 按 年 龄 和 性 别 分 组 的 。 要 上 比较 不 同 分 组 中 选手 的 水 平 ， 就 可 
以 将 比赛 时 间 转 换 成 百 分 等 级 再 做 比较 。 


习题 3-8 


我 最 近 参 加 了 在 马萨诸塞 州 Dedham 举 办 的 James Joyce Ramble 一 万 米 长 跑 。 上 比赛 结果 放 在 
了 http://coolrunning.com/results/10/ma/Apr25_27thAn_set1.shtml 上 。 访 问 这 个 网 页 可 以 看 到 
我 的 比赛 成 绩 : 在 全 部 1633 名 选手 中 排名 第 97 位 。 那 么 我 在 所 有 参赛 选手 中 的 百 分 等 级 是 多 


少 ? 


在 我 所 在 的 分 组 中 〈M4049 的 意思 是 “40 到 49 岁 之 间 的 男性 ") ， 我 在 256 名 选手 中 排 在 第 26 
位 。 我 在 这 个 分 组 中 的 百 分 等 级 是 多 少 ? 


如 果 我 在 未 来 十 年 都 参加 这 个 比赛 〈 和 希望 我 能 行 ) ， 我 就 会 参加 M5059 分 组 。 假 设 我 在 分 组 
中 的 百 分 等 级 不 变 ， 我 的 速度 会 变 慢 多 少 ? 


少 


我 跟 我 的 一 个 学 生 比 成 绩 ， 她 是 F2039 组 的 。 她 要 在 下 次 一 万 米 长 跑 中 跑 多 快 才能 在 百 分 等 级 
上 赢 我 ? 


3.8 随机 数 


在 生成 服从 给 定 分 布 的 随机 数 时 ，CDF 是 很 有 用 的 。 


。 在 0 到 1 的 范围 内 选择 一 个 随机 的 概率 。 
。 用 Cdf.Value 找 到 你 所 选 的 概率 在 分 布 中 对 应 的 值 。 


这 其 中 的 原理 似乎 不 太 直 观 ， 但 这 容易 实现 ， 让 我 们 动手 试 试 。 


习题 3-9 
编写 一 个 Sample 轴 数 ， 参 数 是 一 个 Cdf 和 一 个 整数 "7， 返 回 n 个 来 自 该 Cdf 的 随机 数 。 提 示 : 用 
random.random。 在 Cdf.py 中 有 本 练习 的 解答 。 


用 来 自 NSFG 的 出 生体 重 分 布 生 成 一 个 1000 个 元 素 的 随机 样本 。 计 算 该 样本 的 CDF。 画 出 原 
始 的 CDF 和 随机 祥 本 的 CDF。 如 果 n 足 够 大 ， 两 个 分 布 应 该 是 一 样 的 。 


这 个 根据 已 有 的 样本 生成 随机 样本 的 过 程 就 称 为 再 抽样 (resampling) 。 


从 总 体 获 得 样本 的 方法 有 两 种 : 有 放 回 和 无 放 回 。 假 设 是 从 小 桶 子 里 面 取 玻 璃 球 【1】,“ 有 放 
回 " 就 是 在 下 次 取 球 之 前 将 之 前 取 的 球 放 回 桶 中 (并 捞 动 )， 所 以 每 次 取 球 后 的 总 体 都 是 不 变 
的 。“ 无 放 回 "就 是 每 个 球 只 能 取 一 次 ， 这 样 每 次 取 球 的 总 体 都 不 一 样 。 





[1] 取 球 问题 是 随机 抽样 过 程 的 标准 模型 《参见 
http://wikipedia.org/wiki/Urn_problem) 。 














在 Python 中 ， 可 以 用 random.random 选 择 百 分 等 级 或 者 用 random.choice 从 序列 中 选择 元 素来 
实现 有 放 回 抽样 ， 而 用 random.sample 实 现 无 放 回 抽样 。 
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random.random 生 成 的 数字 介 于 0 到 1 之 间 ， 也 就 是 说 该 范围 内 的 每 个 值 被 选中 的 概率 是 一 样 
的 。 


用 random.random 生 成 1000 个 数字 ， 画 出 它们 的 PMF 和 CDF。 是 否 能 判断 它们 是 均匀 分 布 ? 


关于 均匀 分 布 ， 详 见 http://wikipedia.org/wiki/Uniformdistribution(discrete)。 


3.9 汇总 统计 量 小 结 


在 算出 CDF 之 后 ， 再 计算 其 他 汇总 统计 量 就 比较 容易 了 。 中 位 数 (median) 就 是 百 分 等 级 是 
50 的 值 。 [1] 25 和 75 百 分 等 级 通常 用 来 检查 分 布 是 否 对 称 。 这 两 者 间 的 差异 称 为 四 分 差 
(interquartile range) ， 表 示 分 布 的 分 散 情 况 。 

[1] 中 位 数 还 有 其 他 定义 。 有 些 资料 会 说 ， 当 样本 中 元 素 的 个 数 是 偶数 时 ， 中 位 数 是 中 间 两 
个 元 素 的 平均 值 。 没 必要 定义 这 种 特殊 情况 ， 而 且 用 一 个 样本 中 不 存在 的 值 会 显得 奇怪 。 本 
书 中 位 数 就 是 指 百 分 等 级 为 50 的 值 。 
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编写 一 个 Median 画 数 ， 以 Cdf 作 为 参数 ， 计 算 其 中 位 数 。 再 编写 一 个 Interquartile 画 数 ， 计 算 
四 分 差 。 


计算 出 生体 重 CDF 的 25、50 和 75 百 分 等 级 。 从 这 些 值 是 否 可 以 判断 分 布 是 对 称 的 ? 


3.10 术语 表 


。 条 件 分 布 (conditional distribution) 在 满足 一 定 前 提 条 件 下 计算 出 的 分 布 。 

。 累积 分 布 本 数 (Cumulative Distribution Function，CDF) 将 值 映射 到 其 百 分 等 级 的 
画 数 。 

。 四 分 差 (interquartile range) 表示 总 体 分 散 情况 的 值 ， 等 于 75 和 25 百 分 等 级 之 间 的 
差 。 

。 百 分 位 (percentile) 与 百 分 等 级 相关 联 的 数值 。 

。 百 分 等 级 (percentile rank) 分 布 中 小 于 或 等 于 给 定 值 的 值 在 全 部 值 中 所 占 的 百分比 。 

。 放 回 (replacement) 在 抽样 过 程 中 , “有 放 回 ?表示 对 于 每 次 抽样 ， 总 体 都 是 不 变 
的 。“ 无 放 回 "表示 每 个 元 素 只 能 选择 一 次 。 

。 再 抽样 (resampling) 根据 由 样本 计算 得 到 的 分 布 重新 生成 新 的 随机 样本 的 过 程 。 
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第 4 章 连续 分 布 

本 书 迄 今 为 止 所 介绍 的 分 布 都 是 经 验 分 布 (empirical distribution) ， 因 为 这 些 分 布 都 是 基于 
经 验 观 察 的 ， 其 中 的 样本 都 是 有 限 的 。 


另 一 种 分 布 是 连续 分 布 (continuous distribution) ， 它 的 特点 是 其 CDF 是 一 个 连续 函数 ( 跟 
阶 跃 函数 完全 不 同 ) 。 很 多 实际 现象 都 近似 于 连续 分 布 。 


4.1 指 效 分 布 


我 首先 介绍 最 简单 的 指数 分 布 (exponential distribution) 。 举 个 例子 ， 观 察 一 系列 事件 之 间 
的 间隔 时 间 (interarrival time) 。 若 事件 在 每 个 时 间 点 发 生 的 概率 相同 ， 那 么 间隔 时 间 的 分 布 
就 近似 于 指数 分 布 。 


指数 分 布 的 CDF 是 : 


CDF(x)=1—-e 
参数 和 决定 了 分 布 的 形状 。 图 4-1 中 是 和 =2 时 的 CDF。 


通常 ， 指 数 分 布 的 均值 是 1 入 ， 所 以 这 个 分 布 的 均值 是 0.5。 分 布 的 中 位 数 是 log(2) 人 从， 大 概 等 
于 0.35。 


来 看 一 个 近似 指数 分 布 的 例子 ， 我 们 看 看 宝宝 出 生 时 间 的 间隔 。1997 年 12 月 18 日 ， 澳 大 利 亚 
布 里 斯 班 的 医院 总 共 出 生 了 44 个 宝宝 [1] 。 这 44 个 宝宝 的 出 生 时 间 数 据 在 当地 的 历史 文件 中 
有 记录 ， 可 以 从 http:Wthinkstats.com/babyboom.dat 下 载 到 这 个 数据 。 


[1] 这 个 例子 的 信息 和 数据 来 自 Dunn, “A Simple Dataset for Demonstrating Common 
Distributions,” Journal of Statistics Education v.7, n.3 (1999)。 
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图 4-1 指数 分 布 的 CDF 


图 4-2 中 是 间隔 时 间 的 CDF， 单 位 是 分 钟 。 这 看 上 去 跟 指 数 分 布 的 形状 很 像 ， 但 我 们 如 何 才 能 


确定 这 就 是 一 个 指数 分 布 ? 
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图 4-2 间隔 时 间 的 CDF 


一 种 办 法 是 画 出 取 对 数 后 的 互补 累积 分 布 函 数 (Complementary CDF，CCDF) :1- 
CDF(x)。 如 果 数 据 服从 指数 分 布 ， 这 应 该 是 一 条 直线 。 让 我 们 看 看 为 什么 会 这 样 。 


引 数 分 布 的 数据 集 的 CCDF 如 下 : 
VSe 一 和 

两 边 取 对 数 得 到 : 

logy ~ 一 和 2 


所 以 ， 在 对 y 轴 上 的 值 取 对 数 后 ，CCDF 是 一 条 斜率 为 -~ 和 的 直线 。 


图 4-3 是 y 轴 取 对 数 后 的 间隔 时 间 的 CCDF。 图 中 并 不 是 一 条 严格 意义 上 的 直线 ， 说 明 指 数 分 布 
还 只 是 一 个 近似 。 也 就 是 说 ， 以 下 假设 并 不 完全 正确 : 宝宝 在 一 天 中 各 个 时 间 出 生 的 概率 一 


样 。 


出 生 时 间 间 隔 
10 


CCDF 


10 


-2 
10 0 20 40 60 80 100 120 140 160 


4-3 间隔 时 间 CCDF 


习题 4-1 


在 n 较 小 时 ， 经 验 分 布 不 会 很 好 地 符合 连续 分 布 。 评 价 两 者 间 相 似 性 的 一 个 方法 是 从 连续 分 布 
中 生成 样本 ， 看 看 生成 的 样本 跟 数 据 的 匹配 情况 。 


random 模 块 中 的 expovariate 函 数 可 以 为 给 定 入 生成 服从 指数 分 布 的 随机 数 。 用 这 个 函数 生成 
44 个 服从 随机 分 布 且 均值 为 32.6 的 数 。 画 出 其 y 取 对 数 后 的 CCDF 图 ， 将 其 与 图 4-3 做 比较 。 


提示 : 可 以 用 pyplot.yscale 画 出 取 对 数 后 的 y 轴 。 


也 可 以 用 myplot 中 的 Cdf 函 数 绘制 y 取 对 数 后 的 CCDF，Cdf 函 数 有 一 个 选项 complement， 用 于 
判断 是 绘制 CDF 还 是 CCDF， 还 有 两 个 用 于 数 轴 转 换 的 字符 串 选 项 Xscale 和 yscale : 


myplot.Cdf(cdf, complement=True, xscale='linear', yscale='10g') 


习题 4-2 


收集 你 班 上 同学 的 生日 ， 先 排序 ， 然 后 以 天 为 单位 计算 同学 生日 的 时 间 间 隔 。 画 出 间隔 时 间 
的 CDF 和 y 轴 取 对 数 后 的 CCDF， 它 们 看 上 去 像 是 指数 分 布 吗 ? 


4.2 帕 膝 托 分 布 


帕 黑 托 分 布 是 以 经 济 学 家 Vilfredo Pareto (维尔 弗 雷 多 - 帕 黑 托 ) 的 名 字 命 名 的 ， 他 便 用 这 个 分 
布 来 描述 财富 分 布 情 况 ( 详 见 http://wikipedia.org/wiki/Pareto_distribution) 。 从 那 以 后 ， 该 分 
布 就 广泛 用 于 描述 自然 界 和 社会 科学 中 的 各 种 现象 ， 包 括 城镇 大 小 、 砂 粒 和 陨石 、 森 林 火 灾 
和 地 震 等 。 


帕 累 托 分 布 的 CDF 是 : 
一 和 
ED 一 工 = | 二 
Xm 


参数 xm 和 a 决定 了 分 布 的 位 置 和 形状 。xm 是 最 小 值 。 图 4-4 是 xm=0.5、a=1 的 帕 累 托 分 布 的 
CDF。 
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图 4-4 帕 累 托 分 布 的 CDF 
该 分 布 的 中 位 数 是 : 


Zm21/a 


即 1， 但 其 百 分 等 级 为 95 的 值 是 10， 而 中 位 数 为 1 的 指数 分 布 中 百 分 等 级 为 95 的 值 仅仅 是 1.5。 


可 以 通过 图 形 判 断 一 个 经 验 分 布 是 否 服从 帕 累 托 分 布 : 对 两 条 数 轴 都 取 对 数 后 ， 其 CCDF 应 该 
基本 上 是 一 条 直线 。 如 果 雷 接 画 出 服从 帕 累 托 分 布 的 样本 的 CCDF， 其 函数 如 下 : 


x 一 全 
省 

Xm 
对 两 边 取 对 数 : 
logy ~ —a(logr — logzm) 


在 对 y 和 x 取 对 数 后 ， 就 应 该 基本 上 是 条 直线 ， 斜 率 是 -aq， 截 距 是 -alogzm。 


习题 4-3 
random 模 块 中 的 paretovariate 函 数 可 以 生成 服从 帕 囚 托 分 布 的 随机 数 。 该 玉 数 只 有 一 个 参数 
a， 却 没有 xm。xm 默 认 值 是 {， 乘 上 xm， 就 可 以 生成 各 种 不 同 的 分 布 。 


写 一 个 paretovariate 函 数 ， 以 a 和 xm 作 为 参数 ， 用 random.paretovariate 生 成 服从 双 参 数 帕 过 
托 分 布 的 随机 数 。 


用 你 自己 编写 的 函数 生成 一 个 服从 帕 累 托 分 布 的 样本 。 计 算 CCDF， 取 对 数 后 画 出 来 。 是 一 条 
直线 吗 ? 斜率 是 多 少 ? 


习题 4-4 


为 了 对 帕 累 托 分 布 有 一 个 直观 感受 ， 让 我 们 想象 一 下 ， 如 果 全 世界 所 有 的 人 的 身高 服从 帕 累 
托 分 布 会 是 一 个 什么 情况 。 假 设 参 数 xm=100 厘 米 ，a=1.7。 这 个 分 布 的 最 小 值 是 100 厘 米 ， 而 
中 位 数 是 150 厘 米 (这 样 比较 合理 ) 。 


生成 60 亿 个 服从 该 分 布 的 随机 值 。 样 本 的 均值 是 多 少 ? 其 中 有 多 大 比例 的 人 身高 低 于 均值 ? 
在 帕 累 托 世 界 中 最 高 的 人 多 高 ? 
习题 4-5 


Zipf 法 则 是 一 个 关于 各 种 单词 使 用 频率 差异 的 观察 结论 。 常 用 单词 的 使 用 频率 非常 高 ， 而 罕见 
单词 比如 hapaxlegomenon (一 次 频 词 ) 则 使 用 得 很 少 。 Zipf 法 则 说 的 是 在 一 段 文本 ( 即 语 料 
库 corpus) 中 ， 单 词 频 率 的 分 布 近似 于 帕 累 托 分 布 。 


找 一 个 大 的 电子 版 语料库 ， 任 何 语 言 的 都 可 以 。 计 算 其 中 每 个 单词 的 出 现 次 数 。 算 出 单词 出 
现 次 数 的 CCDF， 画 出 取 对 数 后 的 图 。Zipf 法 则 是 否 成 立 ? a 的 近似 值 是 多 少 ? 


习题 4-6 


威 布尔 分 布 是 一 个 广义 上 的 指数 分 布 ， 源 自 故 障 分 析 (failure analysis， 详 见 
http://wikipedia.org/wiki/Weibull_distribution) 。 它 的 CDF 是 : 


CDP(z) =1 一 er 
能 否 找到 某 个 变换 将 威 布尔 分 布 变 成 一 条 直线 ? 这 条 直线 的 斜率 和 截 距 分 别 表示 什么 意思 ? 


用 random.weibullvariate 生 成 一 个 服从 威 布尔 分 布 的 样本 ， 然 后 用 这 个 样本 测试 一 下 你 的 变 
换 。 


个 
正 态 分 布 也 称 为 高 斯 分 布 ， 因 其 可 以 近似 描述 很 多 现象 而 成 为 最 常用 的 分 布 。 它 的 “ 普 适 性 "是 
有 原因 的 ， 我 们 会 在 6.6 节 做 介绍 。 


正 态 分 布 有 很 多 使 其 适用 于 各 种 分 析 的 特性 ， 但 CDF 并 不 是 其 中 之 一 。 跟 之 前 看 到 的 分 布 不 
一 样 ， 我 们 对 于 正 态 分 布 的 CDF 还 没有 一 种 准确 的 表达 。 最 常用 的 一 种 形式 是 以 误差 辑 数 
(error function) 表示 的 ， 误 差 画 数 是 一 种 特殊 画 数 ， 表 示 为 erf(x) : 


VA ho 


参数 H 和 0 决定 了 分 布 的 均值 和 标准 差 。 


如 果 这 些 公 式 看 起 来 眼花 也 别 担心 ， 在 Python 中 很 容易 实现 这 些 公 式 〔1] 。 有 很 多 高 效 准 确 
的 方法 来 近似 erf(x)。 我 实现 了 一 种 ， 可 从 http://thinkstats.com/erf.py 下 载 ， 其 中 提供 了 erf 和 
NormalCdf 两 个 范 数 。 


[1] 在 Python 3.2 中 更 容易 ，math 模 块 中 就 有 erf 阔 数 。 


图 4-5 是 参数 H=2.0，a=0.5 的 正 态 分 布 的 CDF。 这 种 S 型 曲线 就 是 正 态 分 布 的 标志 。 
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图 4-5 正太 分布 的 CDF 
在 前 一 章 中 ， 我 们 看 过 NSFG 数 据 中 新 生 儿 体重 的 分 布 。 图 4-6 中 是 所 有 新 生 儿 体重 的 经 验 
CDF， 以 及 有 着 相同 均值 和 方差 的 正 态 分 布 的 CDF。 
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图 4-6 服从 正 态 模型 的 新 生 儿 体重 的 CDF 
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对 于 这 个 数据 集 ， 正 态 分 布 是 一 个 不 错 的 模型 。 模 型 就 是 一 种 有 效 的 简化 。 此 处 说 它 简单 实 
用 是 因为 我 们 可 以 用 两 个 参数 (h=116.5 和 a=19.9) 来 总 结 整 个 分 布 ， 并 且 所 得 到 的 误差 ( 模 
型 和 数据 之 间 的 区 别 ) 很 小 。 


在 10 百 分 位 以 下 的 部 分 ， 数 据 和 模型 之 间 出 现 了 差异 ， 体 重 较 轻 的 新 生 儿 数量 比 我 们 根据 正 
态 分 布 得 到 的 预期 值 要 高 一 些 。 如 果 研 究 的 是 时 产儿， 那么 这 部 分 分 布 的 正确 性 就 非常 重 
要 ， 使 用 正 态 分 布 就 不 合适 了 。 


习题 4-7 


The Wechsler Adult Intelligence Scale 是 一 个 智商 测试 【2] 。 我 们 对 结果 作 变 换 ， 这 样 分 数 
在 一 般 人 群 中 的 分 布 就 是 正 态 的 ， 参 数 为 H=100 和 a=15。 





[2] 可 以 在 闲暇 时 间 了 解 一 下 ， 看 看 该 智商 测试 是 否 吸引 你 ， 你 觉得 测试 结果 可 靠 吗 ? 

















用 erf.NormalCdf 范 数 查 看 正 态 分 布 中 罕见 事件 的 频率 。 人 和 群 中 有 多 大 比例 的 人 智商 高 于 均 
值 ?高 于 115、130、145 的 分 别 是 多 少 ? 


“六 西格玛 "事件 就 是 超出 均值 6 个 标准 差 的 值 ， 所 以 六 西格玛 智商 是 190。 在 全 世界 60 亿 人 
中 ， 智 商 超过 190 的 人 有 多 少 [3] ? 


[3] 这 方面 的 详细 信息 请 阅读 http://wikipedia.org/wiki/Christopher_Langan。 
习题 4-8 


画 出 所 有 新 生 儿 怀孕 周期 的 CDF。 看 上 去 像 正 态 分 布 吗 ? 


计算 样本 的 均值 和 方差 ， 根 据 这 两 个 参数 画 出 正 态 分 布 。 使 用 该 正 态 分 布 对 数据 建 模 合适 
吗 ? 如 果 用 两 个 统计 量 来 总 结 这 个 分 布 ， 应 该 选 哪 两 个 统计 量 ? 


4.4 正 态 概率 图 

对 于 指数 分 布 、 帕 累 托 分 布 和 威 布尔 分 布 ， 都 可 以 通过 简单 的 转换 来 判断 一 个 连续 分 布 是 否 
能 用 于 某 份 数据 集 的 建 模 。 

然而 ， 对 于 正 态 分 布 就 不 存在 这 样 的 变换 ， 但 有 一 种 称 为 正 态 概率 图 (normal probability 
plot) 的 方法 。 它 是 基于 秩 变换 (rankit) 的 ， 所 谓 秩 变 换 就 是 对 n 个 服从 正 态 分 布 的 值 排序 ， 
第 k 个 值 分 布 的 均值 就 称 为 第 k 个 秩 变 换 。 

习题 4-9 

编写 一 个 Sample 辑 】 数 ， 生 成 6 个 服从 y=0，o=1 的 正 态 分 布 的 值 ， 将 其 排序 后 返回 。 

编写 一 个 Samples 画 数 ， 调 用 1000 次 Sample， 返 回 一 个 包含 1000 个 列表 的 列表 。 


用 zip 汞 数 处 理 这 个 列表 组 成 的 列表 ， 可 以 得 到 6 个 包含 1000 个 值 的 列表 。 计 算 每 个 列表 的 均 
值 ， 输 出 结果 。 你 得 到 的 结果 大 概 是 这 样 : 


仁 1.2672, -0.6418, -0.2016, 0.2016, 0.6418, 1.2672} 
随 着 调用 Sample 函 数 次 数 的 增加 ， 结 果 会 收敛 到 这 些 值 。 


直接 计算 rankit 是 比较 麻烦 的 ， 但 有 一 些 计算 方 法 可 以 求 出 近似 解 。 其 中 一 个 快捷 且 容 易 实现 
的 方法 如 下 。 


1， 从 h=0、a=1 的 正 态 分 布 中 生成 一 个 跟 你 的 数据 集 大 小 一 样 的 样本 。 
2， 将 数据 集中 的 值 排序 。 
3， 男 出 数据 集中 排序 后 的 值 跟 第 一 步 生 成 的 随机 值 的 散 点 图 。 


对 于 大 数据 集 ， 这 个 方法 效果 很 好 。 对 于 较 小 的 数据 集 ， 可 以 通过 生成 m(n+1)-1 个 服从 正 态 


分 布 的 值 来 提升 效果 ， 其 中 n 是 数据 集 的 大 小 ， 而 m 是 一 个 放大 因子 。 然 后 从 第 m 个 元 素 开始 
选择 第 m 个 元 素 。 


只 要 能 生成 所 需 的 随机 样本 ， 该 方法 同样 也 可 以 用 于 其 他 的 分 布 。 


图 4-7 是 一 个 简单 的 出 生体 重 正 态 概率 图 。 这 个 图 的 曲 度 表示 数据 集 跟 正 态 分 布 的 差异 ; 半 
竟 ， 在 很 多 情况 下 ， 正 态 分 布 都 是 一 个 很 好 (至 少 是 足够 好 ) 的 模型 。 
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图 4-7 新 生 儿 体重 正 态 概率 


习题 4-10 
编写 一 个 NormalPlot 函 数 ， 输 入 是 一 串 值 ， 生 成 一 个 正 态 概率 图 。 答 案 


在 http://thinkstats.com/rankit.py。 


用 relay.py 中 的 跑步 速度 生成 正 态 概率 图 。 正 态 分 布 适用 于 这 份 数据 吗 ? 答案 
在 http://thinkstats.com/relay_normal.py。 


4.5 对 数 正 态 分 布 


如 果 一 组 数值 做 对 数 变 换 后 服从 正 态 分 布 ， 我 们 就 称 其 服从 对 数 正 态 分 布 (lognormal 
distribution) 。 对 数 正 态 分 布 的 CDF 跟 正 态 分 布 一 样 ， 只 是 用 logx 代 蔡 原 来 的 x : 


CDFisgnormal(¥) = CDFrnormal(logz) 
正 态 分 布 的 参数 通常 用 ku 和 o 表 示 。 但 要 记 住 ， 这 两 个 参数 的 意思 不 是 均值 和 标准 差 ， 对 数 正 
态 分 布 的 均值 是 ezp(j 十 o?/2)， 标 准 差 则 比较 复杂 [1] 。 
[1] 详 见 http://wikipedia.org/wiki/Log-normal_distribution。 
可 以 证 明 ， 成 人 体重 的 分 布 是 近似 对 数 正 态 的 。 [2] 


[2] 我 是 在 http://mathworld.wolfram. onl-egNermaloisiib ton html 网 页 上 看 到 这 种 
观点 的 ， 但 未 注 明 来 源 。 随 后 ， 我 发 现 了 一 篇 提出 对 数 变 换 并 解释 其 中 原因 的 论文 : 
Penman and Johnson, "The Changing Shape of the Body Mass Index Distribution 
Curve in the Population,” Preventing Chronic Disease, 2006 July; 3(3): A74。 其 网 址 是 
http://www.ncbi.nIm.nih.gov/pmc/articles/PMC1636707。 


美国 国家 慢性 病 预 防 和 健康 促进 中 心 (NCCDPHP) 每 年 都 会 进行 一 次 调查 ， 调 查 结果 会 作 
为 行为 风险 因素 监测 系统 (BRFSS) 的 一 部 分 【3] 。2008 年 ， 他 们 访谈 了 414 509 位 被 调查 
者 ， 询 问 了 他 们 的 人 口 统计 特征 、 健 康 和 健康 风险 方面 的 问题 。 


[3] Centers for Disease Control and Prevention (CDC). Behavioral Risk Factor 
Surveillance System Survey Data. Atlanta, Georgia: U.S. Department of Health and 
Human Services, Centers for Disease Control and Prevention, 2008. 


这 份 调 查 数据 中 包含 了 398 484 位 被 调查 者 的 体重 信息 (单位 是 千克 ) 。 图 4-8 是 1ogw 的 分 
布 ， 其 中 w 为 体重 ， 服 从 正 态 分 布 。 


成 人 体重 
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成 人 体重 ( 取 对 数 ， 单 位 kg) 
图 4-8 成 人 体重 的 CDF (经 过 对 数 变 换 ) 


正 态 模型 可 以 很 好 地 拟 合 数据 ， 但 即使 经 过 了 对 数 变换 ， 体 重 的 最 大 值 还 是 超过 了 我 们 的 期 
望 。 而 W 取 对 数 后 符合 正 态 分 布 ， 因 此 我 们 可 以 判断 w 服 从 对 数 正 态 分 布 。 
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从 http:Wthinkstats.com/CDBRFS08.ASC.gz 下 载 BRFSS 数 据 ， 读 取 该 数据 的 代码 
在 http://thinkstats.com/brfss.py 上 。 运 行 brfss.py， 应 该 可 以 看 到 它 会 在 屏幕 上 显示 出 一 些 变 


量 的 汇 总 统计 量 。 


写 一 个 程序 从 BRFSS 中 读 取 成 人 体重 ， 生 成 w 和 logw 的 正 态 概率 图 。 答 案 可 以 从 
http://thinkstats.com/brfss_figs.py 下 载 。 
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城镇 人 口 分 布 是 帕 累 托 分 布 的 一 个 真实 例子 。 


美国 人 口 普查 局 (U.S. Census Bureau) 发 布 的 人 口 数据 涵盖 全 美 所 有 城镇 。 我 编写 了 一 个 

小 程序 下 载 这 些 数 据 并 将 其 保存 到 文件 中 ， 程 序 可 以 从 http:/thinkstats.com/populations.py 下 

载 。 

1. 看 一 下 程序 ， 弄 明白 它 能 做 什么 ， 然 后 运行 改 该 程序 下 载 和 义理 数据 。 

2， 写 个 程序 计算 数据 中 14 593 个 城镇 的 人 口 分 布 ， 并 画图 。 

3. 分 别 画 出 线性 和 取 对 数 后 的 CDF， 看 看 分 布 的 形状 。 然 后 两 次 取 对 数 后 画 出 CCDF， 看 看 
该 分 布 是 否 符合 帕 累 托 分 布 的 特征 。 

4.， 党 试 本 章 中 介绍 的 其 他 变换 ， 画 图 ， 看 看 是 否 存在 其 他 模型 能 更 好 地 拟 合 这 个 数据 。 


关于 城镇 规模 的 分 布 ， 我 们 可 以 得 出 什么 结论 ? 相关 代码 可 以 从 
http://thinkstats.com/populations_cdf.py 下 载 。 
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美国 国税 局 (IRS) 在 http://irs.gov/taxstats 上 提供 了 关于 个 人 所 得 税 的 数据 。 


其 中 一 个 文件 中 记录 了 2008 年 个 人 收入 信息 ， 网 址 是 http:Wthinkstats.com/08in11si.csv。 我 将 
其 转换 为 逗号 分 隔 文 件 (CSV) ， 读 者 可 用 csv 模 块 读 取 该 文件 。 


从 该 数据 集中 抽取 收入 的 分 布 。 本 章 中 介绍 的 连续 分 布 是 否 能 较 好 地 拟 合 该 数据 ? 答案 可 从 
http://thinkstats.com/irs.py 下 载 。 


我 在 本 章 开 头 说 过 ， 真 实 世界 的 很 多 现象 都 可 以 用 连续 分 布 来 建 模 。 读 者 可 能 会 问 : “这 有 什 
么 用 ?” 


跟 所 有 模型 一 样 ， 连 续 分 布 也 是 一 种 抽象 。 换 言 之 ， 就 是 会 舍 奔 一 些 无 关 紧 要 的 细节 。 例 

如 ， 真 实 观察 到 的 分 布 中 可 能 会 有 测量 误差 或 是 对 样本 来 说 很 奇怪 的 数据 ， 而 连续 模型 会 消 
除 这 些 无 关 紧 要 的 细节 。 

连续 模型 也 是 一 种 数据 压缩 。 如 果 模 型 能 很 好 地 拟 合 数据 集 ， 那 么 少量 参数 就 可 以 描述 大 量 
数据 。 

有 有 时候， 我 们 会 惊讶 地 发 现 某 种 自然 现象 服从 某 个 连续 分 布 ， 观 察 这 些 现 象 可 以 让 我 们 深入 
理解 真实 的 系统 。 有 时 候 ， 我 们 可 以 解释 观察 到 的 分 布 服从 特定 形式 的 原因 。 例 如 ， 帕 累 托 


分 布 通常 是 正 反 馈 生 成 过 程 的 结果 (也 称 为 偏好 依附 : preferential attachment， 详 见 
http://wikipedia.org/wiki/Preferential_attachment) 。 


连续 分 布 可 用 于 数学 分 析 ， 我 们 会 在 第 6 章 中 介绍 。 


4.7 生成 随机 数 


连续 分 布 CDF 对 于 生成 随机 数 也 很 有 用 。 如 果 可 以 高 效 地 计算 出 ICDF(p) (inverse CDF， 道 
CDF) ， 我 们 就 可 以 方便 地 生成 服从 各 种 分 布 的 随机 值 。 方 法 是 首先 产生 0~1 之 间 服 从 均匀 分 
布 的 值 ， 然 后 选择 : 


z=ICDF(p) 


例如 ， 指 数 分 布 的 CDF 是 : 


化 


六 一 工 一 ee 
求解 x， 得 到 : 
z=—log(l 一 D)/A 


用 Python 写成 的 代码 如 下 所 示 : 
def expovariate(lam): 
p = random.random() 


x = -math.log(1-p) / lam 
me 


我 们 用 lam 变 量 表 示 参 数 是 因为 lambda 是 Python 关键 字 。 大 部 分 random.random 实 现 都 可 以 
返回 0， 但 不 能 返回 1， 所 以 1-p 有 可 能 等 于 1， 但 不 可 能 等 于 0， 因 为 log0 是 没有 定义 的 。 
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编写 一 个 weibullvariate 函 数 ， 参 数 是 lam 和 k， 返 回 随机 值 ， 随 机 值 服从 以 此 为 参数 的 威 布尔 
分 布 。 


。 连续 分 布 (continuous distribution) 由 连续 函数 描述 的 分 布 。 

。 语料库 (corpus) 特定 语言 中 用 做 样本 的 正文 文本 。 

。 经 验 分 布 (empirical distribution) 样本 中 值 的 分 布 。 

。 误差 事 数 (error function) 一 种 特殊 的 数学 函数 ， 因 源 自 误差 度量 研究 而 得 名 。 


。 一 次 频 词 (hapaxlegomenon) 表示 语料库 中 只 出 现 一 次 的 词 。 这 个 单词 在 本 书 中 迄今 
出 现 了 两 次 。 


。 间隔 时 间 (interarrival time) 两 个 事件 的 时 间 间 隔 。 
。 模型 (model) 一 种 有 效 的 简化 。 对 于 很 多 复杂 的 经 验 分 布 ， 连 续 分 布 是 不 错 的 模型 。 


。 正 态 概 率 图 (normal probability plot) 一 种 统计 图 形 ， 用 于 表示 样本 中 排序 后 的 值 与 
其 服从 正 态 分 布 时 的 期 望 值 之 间 的 关系 。 


。 秩 变 换 (rankit) 元 素 的 期 望 值 ， 该 元 素 位 于 服从 正 态 分 布 的 已 排序 列表 中 。 


第 5 章 概率 


在 第 2 章 中 ， 我 们 说 过 概率 就 是 频数 与 样本 大 小 的 比值 。 这 是 概率 的 一 种 定义 ， 但 并 不 是 唯一 
定义 。 实 际 上 ， 概 率 的 含义 一 直 就 是 一 个 有 争议 的 话题 。 


我 们 先 搁 冒 争议 ， 看 看 其 他 内 容 。 大 家 普通 认同 概率 是 一 个 0 到 1 之 间 的 值 ， 是 一 种 定量 度 
量 ， 对 应 于 定性 地 描述 某 一 件 事 发 生 的 可 能 性 的 大 小 。 


被 赋予 概率 的 “事情 " 称 为 事件 (event) 。 如 果 E 表 示 一 个 事件 ， 那 么 P(E) 就 表示 该 事件 发 生 的 
概率 。 检 测 E 发 生 情况 的 过 程 就 叫做 试验 (trial) 。 


举 个 例子 ， 假 设 有 一 个 标准 的 六 面 般 子 ， 计 算 抛 出 6 点 的 概率 。 每 抛 一 次 就 是 一 次 试验 。 抛 出 
6 点 就 是 成 功 ， 否 则 就 是 失败 。 在 某 些 情况 下 ,，“ 成 功 " 可 能 是 坏事 ， 而 “失败 ” 才 是 好 事 。 


如 果 我 们 有 一 个 包含 hn 次 试验 的 有 限 样 本 ， 其 中 我 们 观察 到 s 次 成 功 ， 那 么 成 功 的 概率 就 是 
s/n。 如 果 这 个 试验 集合 是 无 限 的 ， 概 率 的 定义 就 会 复杂 些 。 但 大 部 分 人 都 可 以 接受 用 一 系列 
假想 的 重复 试验 来 表示 概率 ， 例 如 抛 硬 币 或 搓 般 子 。 


在 遇 到 不 同事 件 的 概率 时 ， 我 们 就 遇 到 麻烦 了 。 例 如 ， 我 们 想 知 道 候选 人 赢得 选举 的 概率 。 
但 每 次 选举 都 是 不 同 的 ， 因 此 不 存在 一 系列 的 重复 试验 来 计算 概率 。 


遇 到 这 种 情况 ， 有 些 人 就 会 说 上 面 这 个 概率 的 概念 在 这 里 并 不 适用 。 上 面 这 种 观点 称 为 频率 
论 (frequentism) ， 就 是 用 频率 来 定义 概率 。 如 果 没 有 一 系列 相同 的 试验 ， 那 就 不 存在 概 
率 。 


频率 论 在 哲学 上 是 没有 错误 的 ， 但 它 却 限制 了 概率 的 使 用 范围 ， 只 限于 随机 的 物理 系统 〈 例 
如 原子 衰变 ) 或 因 无 法 预测 而 被 视 做 随机 的 系统 (例如 意外 死亡 ) 。 任 何 涉及 人 为 因素 的 情 
况 都 不 适用 。 


还 有 一 种 观点 是 贝 叶 斯 认识 论 (bayesianism) ， 这 种 观点 将 概率 定义 为 事件 发 生 的 可 信和 度 。 
根据 这 个 定义 ， 概 率 几乎 能 用 于 所 有 情况 。 贝 叶 斯 概率 的 一 个 问题 是 它 会 受 个 体 认 知 的 影 

响 : 对 于 同一 事件 ， 不 同 的 人 会 因为 所 掌握 的 信息 不 一 样 而 对 其 发 生 的 可 信和 度 有 不 同 的 站 

断 。 正 因为 如 此 ， 很 多 人 认为 贝 叶 斯 概率 要 比 频率 概率 更 主观 。 

举 个 例子 ， 他 信 , 西 那 瓦 成 为 泰国 总 理 的 概率 有 多 大 ? 频率 学 派 会 说 这 个 事件 没有 概率 ， 因 为 
找 不 到 一 系列 试验 来 验证 这 个 问题 。 他 信 是 否 能 成 为 总 理 跟 概 率 没有 关系 。 

反之 ， 贝 叶 斯 学 派 会 根据 其 自己 所 掌握 的 信息 赋予 这 个 事件 一 个 概率 。 例 如 ， 如 果 你 知道 

2006 年 泰国 发 生 了 一 次 政变 ， 并 且 你 非常 肯定 时 任 总 理 的 他 信 流亡 国外 ， 你 就 有 可 能 将 这 个 
概率 设 为 0.1。 这 个 值 真正 代表 的 是 你 的 记忆 出 错 的 可 能 性 ， 或 者 他 信 复 职 的 可 能 性 。 

看 一 下 维基 百科 ， 你 就 会 知道 他 信 不 是 泰国 的 总 理 (在 我 写 这 本 书 的 时 候 ) 。 有 了 这 个 信 

息 ， 你 可 能 就 会 将 这 个 概率 改 成 0.01， 而 这 个 值 反映 了 维基 百科 针对 此 事件 出 错 的 可 能 性 。 


5.1 概率 法 则 


对 于 频率 概率 ， 我 们 可 以 推出 不 同事 件 概率 关系 的 法 则 。 其 中 最 著名 的 应 该 是 : 

P(AB) = P(A)P(B) 

警告 : 该 法 则 并 非 在 所 有 情况 下 都 成 立 | 

其 中 P(A4B) 是 事件 A 和 事件 B 同 时 发 生 的 概率 。 这 个 公式 很 好 记 ， 要 记 住 的 就 是 它 的 成 立 是 有 


前 提 条 件 的 ， 即 事件 A 和 事件 B 相互 独立 。 换 让 之 ， 就 是 事件 A 的 发 生 对 事件 B 发 生 的 概率 没 
有 任何 影响 ， 反 之 亦 然 。 


例如 ， 如 果 事 件 A 是 抛 硬 币 得 到 正面 ， 而 事件 B 是 掷 般 子 得 到 一 点 ， 那 么 A 和 B 两 个 事件 就 是 相 
互 独立 的 ， 因 为 抛 硬 币 的 结果 跟 掷 般 子 是 没有 任何 关系 的 。 


但 如 果 我 是 挪 两 次 骨 子 ， 事 件 A 是 至 少 得 到 一 个 六 点 ， 而 事件 B 是 得 到 两 个 六 点 ， 那 A 和 B 就 不 
是 独立 的 。 因 为 ， 如 果 我 知道 事件 A 发 生 了 ， 那 事件 B 发 生 的 概率 就 会 上 升 ; 而 如 果 我 知道 事 
件 B 发 生 了 ， 那 事件 A 发 生 的 概率 就 是 1。 


当 事 件 A 和 B 不 独立 时 ， 通 常 需要 计算 条 件 概 率 P(A|B)， 即 在 事件 B 已 经 发 生 的 情况 下 事件 
发 生 的 概率 : 


P(A|B) = P(AB)/P(B) 

据 此 ， 我 们 可 以 得 到 更 一 般 的 关系 : 

P(AB) = P(A)P(B|A) 

这 个 公式 稍微 难 记 点 儿 ， 但 你 把 它 用 语言 描述 一 下 就 非常 好 理解 , “两 件 事情 同时 发 生 就 是 第 
一 件 事 发 生 后 第 二 件 事情 也 发 生 了 ”。 

事件 发 生 的 先后 顺序 是 没有 影响 的 ， 所 以 我 们 也 可 以 这 样 写 : 

P(4B) = P(B)P(A|B) 

无 论 事件 A 和 B 是 否 独 立 ， 这 个 关系 都 是 成 立 的 。 如 果 它 们 是 独立 的 ， 那 么 P(A4|B) = P(4)， 

我 们 就 得 到 了 一 开始 说 的 那个 公式 。 

因为 概率 的 范围 是 0 到 1， 所 以 很 容易 证 明 : 

P(AB) < P(A) 

想象 一 下 ， 某 俱乐部 只 接受 符合 特定 要 求 A 的 人 成 为 其 会 员 。 现 在 假设 他 们 增加 了 一 个 新 的 要 
求 B， 显 然 俱 乐 部 的 规模 会 变 小 ， 或 者 ， 如 果 所 有 成 员 都 满足 新 要 求 ， 俱 乐 部 规模 保持 不 变 。 


但 有 时 候 ， 人 们 极 不 擅长 此 类 分 析 。 关 于 这 类 现象 的 例子 和 相关 讨论 可 以 访问 
http://wikipedia.org/wiki/Conjunction_fallacy。 


习题 5-1 


搓 两 次 仍 子 ， 总 点 数 是 八 ， 那 么 其 中 一 次 是 六 点 的 概率 是 多 少 ? 


习题 5-2 


搓 100 次 仍 子 ， 全 部 都 是 六 点 的 概率 是 多 少 ? 没有 六 点 的 概率 是 多 少 ? 


习题 5-3 
下 面 的 问题 来 自 Mlodinow 的 The Drunkard's Walk 一 书 。 


家 里 有 两 个 小 孩 ， 都 是 女孩 的 概率 是 多 少 ? 

家 里 有 两 个 小 孩 ， 已 知 其 中 至 少 有 一 个 女孩 ， 两 个 都 是 女孩 的 概率 是 多 少 ? 

家 里 有 两 个 小 孩 ， 已 知 年 龄 较 大 的 一 个 是 女孩 ， 两 个 都 是 女孩 的 概率 是 多 少 ? 

家 里 有 两 个 小 孩 ， 已 知 其 中 有 一 个 叫 Florida 的 女孩 ， 两 个 都 是 女孩 的 概率 是 多 少 ? 


WD 


可 以 假设 任意 一 个 小 孩 是 女孩 的 概率 是 1/2 (在 很 多 方面 都 适用 ) ， 而 家 里 不 同 小 孩 的 性 别 是 
独立 事件 。 还 可 以 假设 女孩 叫 Florida 的 概率 比较 小 。 


2 蒙 提 惟 尔 问题 


蒙 提 霍 尔 问题 (The Monty Hall problem) 有 可 能 是 历史 上 最 富 争议 的 概率 问题 。 问 题 很 简 
单 ， 但 正确 答案 与 人 们 的 直觉 完全 不 同 ， 所 以 很 多 人 难以 接受 。 不 少 聪明 人 不 仅 自 己 弄 错 
了 ， 还 公开 为 错误 的 结果 高 声 辩护 。 


蒙 提 : 霍 尔 原本 是 美国 电视 游戏 节目 Let's Make a Deal 的 主持 人 ， 蒙 提 霍 尔 问 题 就 是 源 自 该 节 
目 中 的 一 个 游戏 。 如 果 你 是 参赛 者 ， 以 下 是 节目 现场 的 情况 。 


。 你 会 看 到 三 局 关闭 的 门 ， 蒙 提 会 告诉 你 每 局 门 后 的 奖励 : 其 中 有 一 局 门 后 面 是 一 辆 车 ， 
而 另外 两 局 门 后 面 则 是 诸如 花生 普 或 假 指 甲 之 类 不 太 值 钱 的 东西 。 奖 品 的 摆 放 是 随机 
的 。 

。 你 的 目标 就 是 要 猜 出 哪 属 门 后 是 汽车 。 如 果 猜 对 ， 汽 车 就 轨 你 了 。 

。 我 们 把 你 选择 的 门 称 为 A 门 ， 其 他 两 局 门 分 别 是 B 门 和 C 门 。 

。 在 打开 你 所 选择 的 A 门 之 前 ， 蒙 提 往 往 会 打开 B 门 或 C 门 扰乱 你 的 选择 。 (如 果 汽车 确实 
是 在 A 门 后 面 ， 那 蒙 提 随机 打开 B 门 或 C 门 都 没有 问题 。) 

。 接 下 来 ， 蒙 提 会 给 你 一 个 机 会 : 你 是 坚持 原来 的 选择 ， 还 是 选择 另 一 属 示 打开 的 门 。 


问题 是 ， 坚 持原 来 的 选择 或 选择 另 一 局 门 ， 会 有 什么 不 同 吗 ? 
大 部 分 人 和 凭 直觉 觉得 这 没有 区 别 。 因 为 ， 还 剩 下 两 局 门 ， 所 以 汽车 在 A 门 后 面 的 概率 是 50%。 


但 这 就 错 了 。 实 际 上 ， 坚 持 选 择 A 门 ， 获 胜 的 机 会 就 只 有 1/3 ; 而 如 果 选 择 另 一 局 门 ， 获 胜 的 
机 会 就 是 2/3。 接 下 来 我 会 解释 原因 ， 但 信 不 信和 由 你 。 


其 中 的 关键 在 于 要 明白 ， 这 里 有 三 种 可 能 的 情况 : 汽车 可 能 会 在 A 门 后 ， 也 可 能 在 B 门 或 C 门 
后 面 。 因 为 奖品 是 随机 摆 放 的 ， 所 以 每 种 情况 的 概率 都 是 1/3。 


如 果 坚 持 选择 A 门 ， 那 么 就 只 有 在 一 开始 汽车 就 在 A 门 后 面 的 情况 下 才能 获胜 ， 获 胜 的 概率 是 
1/3。 


但 如 果 选 择 另 一 局 没 打开 的 门 ， 那 么 在 B 或 C 后 面 有 车 这 两 种 情况 下 都 会 获胜 ， 总 体 的 获胜 概 
率 就 是 2/3。 


你 可 能 还 是 不 信 ， 没 关系 ， 很 多 人 都 跟 你 一 本 Paul Erd6s 的 一 位 朋友 跟 他 解释 这 种 情况 时 ， 
他 回答 : “不 对 ， 这 绝 不 可 能 ， 两 者 没有 区 别 。” [1] 


[1] 参见 Hoffman 的 The Man Who Loved Only Numbers 一 书 的 83 页 。 


穷尽 各 种 解释 都 不 能 说 服 他 。 最 终 ， 只 能 用 计算 机 模拟 让 他 接受 这 个 结果 。 


习题 5-4 


写 一 个 模拟 蒙 提 霍 尔 问题 的 程序 ， 用 这 个 程序 估计 坚持 选择 A 门 和 选择 另 一 局 门 的 获胜 概率 分 
别 是 多 少 。 


然后 阅读 http://wikipedia.org/wiki/Monty_Hall_problem 上 关于 此 问题 的 讨论 。 


哪个 更 有 说 服 力 ， 是 模拟 还 是 各 种 解释 ? 为什么? 


习题 5-5 


理解 蒙 提 霍 尔 问题 的 重点 在 于 要 明白 蒙 提 打开 一 局 门 实际 上 是 给 你 提供 了 信息 。 想 象 一 下 ， 
如 果 蒙 提 不 知道 奖品 在 哪里 ， 随 机 打开 B 门 或 C 门 ， 会 怎么 样 ? 

如 果 打 开 的 门 后 是 汽车 ， 游 戏 结束 ， 你 输 了 ， 再 没有 选择 的 机 会 。 否 则 ， 你 是 应 该 坚持 还 是 
改变 选择 ? 


一 一 
5.3 庞 加 来 
享 利 : 庞 加 莱 (Henri Poincar6) 是 法 国 著名 的 数学 家 ，1900 年 左右 在 索 邦 大 学 任教 。 下 面 这 
个 关于 他 的 传闻 可 能 是 杜撰 的 ， 但 这 里 有 一 个 很 有 意思 的 概率 问题 。 


庞 加 莱 怀 疑 当地 的 面包 屋 出 售 的 大 面包 的 重量 并 没有 他 们 所 宣传 的 1000 克 那么 重 ， 所 以 他 一 
年 中 每 天 都 去 买 一 个 大 面包 ， 然 后 回 家 称 重 。 到 了 年 底 ， 他 画 出 了 重量 的 分 布 图 ， 并 证 明了 
该 分 布 服 从 均值 950 克 、 标 准 差 50 克 的 正 态 分 布 。 他 把 这 个 证 据 提 交 给 了 监管 部 门 ， 监 管 部 门 
警告 了 面包 屋 。 


第 二 年 ， 庞 加 莱 继 续 每 天 测量 他 所 购买 的 面包 的 重量 。 到 了 年 底 ， 他 发 现 平均 重量 是 1000 
克 ， 跟 宣传 的 一 样 。 但 他 再 次 向 监管 部 门 投诉 了 面包 屋 ， 而 这 次 监管 部 门 多 罚 了 面包 屋 。 


为 什么 ? 因为 重量 分 布 是 不 对 称 的 。 跟 正 态 分 布 不 一 样 ， 这 个 分 布 向 右倾 斜 ， 换 言 之 就 是 面 
包 屋 做 的 面包 依然 只 有 950 克 ， 只 是 故意 把 比较 重 的 面包 卖 给 了 庞 加 莱 。 
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写 一 个 程序 模拟 面包 屋 ， 从 均值 950 克 、 标 准 差 50 克 的 分 布 中 随机 选 出 n 块 面包 ， 把 其 中 最 重 
的 一 块 给 庞 加 莱 。n 等 于 什么 值 会 得 到 一 个 均值 1000 克 的 分 布 ? 标准 差 是 多 少 ? 


将 这 个 分 布 跟 均值 、 标 准 差 相 同 的 正 态 分 布 作 比 较 。 两 者 形状 上 的 差异 是 否 足以 说 服 监管 部 
门 ? 

习题 5-7 

如 果 跳 舞 时 舞伴 是 随机 安排 的 ， 女 的 比 男 的 高 的 比例 是 多 少 ? 


在 BRFSS ( 见 4.5 节 “对 数 正 态 分 布 ") ， 身 高 的 分 布 基本 上 是 个 正 态 分 布 ， 男 性 身高 分 布 的 
Ju=178 cm，02 =59.4 cm， 女 性 身高 分 布 的 y=163 cm，a2 =52.8 cm。 


插 一 句 ， 读 者 可 能 发 现 男性 身高 的 标准 差 比较 大 ， 这 是 否 意味 着 男性 身高 的 变化 更 大 ?上 比较 
两 组 的 变化 程度 可 以 计算 变异 系数 (coefficient of variation) ， 即 标准 差 除 以 均值 ，a/h。 根 
据 这 个 指标 ， 女 性 身高 的 变化 更 大 一 些 。 


5.4 其 他 概率 法 则 


如 果 两 个 事件 是 互 斥 的 ， 即 两 者 中 只 有 一 个 会 发 生 ， 那 么 两 者 的 条 件 概 率 等 于 0 : 
P(4IB) = P(B|A)=0 

在 这 种 情况 下 ， 计 算 任 一 事件 的 概率 很 容易 : 

P(A 或 B)=P(A)+P(B) 警告 : 某 些 情况 下 是 不 成 立 的 。 


但 要 记 住 ， 只 有 在 事件 互 斥 的 情况 下 这 个 公式 才 成 立 。 在 一 般 情况 下 ， 事 件 A 发 生 ， 或 B 发 
生 ， 或 两 者 都 发 生 的 概率 是 : 


P(A 或 B)=P(A)+P(B)-P(AB) 
减 去 P(AB) 是 因为 它 被 计算 了 两 次 。 


例如 ， 抛 两 枚 硬币 ， 至 少 一 次 反面 朝 上 的 概率 是 1/2+1/2-1/4。 如 果 不 减 去 1/4 的 话 ， 两 次 都 正 
面 朝 上 的 概率 就 会 被 算 两 次 。 如 果 是 抛 三 个 硬币 的 话 ， 这 个 问题 会 更 清楚 。 


习题 5-8 
掷 两 次 仍 子 ， 至 少 得 到 一 个 六 点 的 概率 是 多 少 ? 


习题 5-9 


计算 事件 A 或 B 发 生 ， 且 两 者 不 会 同时 发 生 的 概率 一 般 用 什么 公式 ? 


5.5 二 项 分 布 


搓 100 次 山子 ， 全 部 都 是 六 点 的 概率 是 (1/6)100， 而 一 个 六 点 都 没有 的 概率 是 (5/6)100。 


这 都 很 简单 ， 但 通常 我 们 更 想 知 道 得 到 k 个 六 点 的 概率 ，k 是 0 到 100 间 的 任意 数 。 答 案 就 是 二 
项 分 布 (binomial distribution) ， 其 PMF 是 : 


Nn 
PMF(K) = ( ,Jp (1—p)"™ 


其 中 n 是 试验 总 次 数 ，p 是 成 功 的 概率 ，k 是 成 功 的 次 数 。 
二 项 系数 可 以 读 作 “n 中 选 K"， 可 以 直接 计算 出 来 : 


和 nl 

Kk) ki(n—rk)! 

Nn 171 一] 于 171 一] 
Kk Kk 一 


两 个 极端 情况 : 如 果 n=0， 结 果 就 是 0 ; 如 果 k=0， 结 果 就 是 1。 访 问 
http://thinkstats.com/thinkstats.py， 可 以 看 到 计算 二 项 系数 的 Binom 函 数 。 
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抛 100 次 硬币 ， 应 该 可 以 得 到 50 次 正面 朝 上 ， 但 恰好 50 次 正面 朝 上 的 概率 是 多 少 ? 


5.6 连 胜 和 手感 


人 们 对 随机 过 程 的 直觉 往往 跟 事实 有 一 定 差距 。 如 果 要 某 人 生成 一 些 随 机 数 ， 他 可 能 会 给 你 
一 些 看 上 去 随机 ， 但 实际 上 要 上 比 真正 的 随机 数列 有 序 得 多 的 数字 。 反 之 ， 给 他 一 个 真正 的 随 
机 数列 ， 他 也 能 从 中 找 出 一 些 并 不 存在 的 模式 。 


第 二 个 现象 的 一 个 例子 是 很 多 人 在 体育 运动 中 相信 连 胜 或 连 败 : 大 家 往往 认为 一 段 时 间 比 较 
成 功 的 运动 员 " 手 感 好 ”， 而 不 成 功 的 运动 员 则 是 “ 走 霉 运 ”。 
统计 学 家 在 各 种 体育 运动 中 测试 了 这 些 假设 ， 但 所 有 的 结果 都 是 一 致 的 : 不 存在 诸如 连 胜 、 


连 败 一 类 的 东西 【1] 。 假 设 每 次 比赛 都 是 独立 事件 ， 看 到 多 次 连 胜 或 者 连 败 的 情况 也 很 正 
常 。 这 并 不 能 说 明 这 次 获胜 和 下 次 获胜 之 间 有 什么 联系 。 


[1] 例如 ， 参 见 Gilovich、Vallone 和 Tversky 的 “The hot hand in basketball: On the 
misperception of random sequences, "1985。 


另 一 个 类 似 现 象 是 聚 类 错觉 (clustering ilusion) ， 指 看 上 去 好 像 有 某 种 特点 的 聚 类 实际 上 是 
随机 的 (参见 http://wikipedia.org/wiki/Clustering_illusion) 。 


要 检查 某 个 聚 类 结果 是 否 有 意义 ， 可 以 使 用 模拟 随机 系统 ， 看 看 在 随机 情况 下 产生 类 似 聚 类 
的 概率 。 这 个 过 程 就 叫做 蒙特 卡 罗 模 拟 (Monte Carlo simulation) ， 因 为 生成 随机 数 的 方法 
源 自 赌场 (蒙特 卡 罗 是 有 名 的 赌 城 ) 。 


习题 5-11 


如 果 一 场 篮 球 比赛 的 10 名 参赛 选手 每 人 都 投了 15 次 篮 ， 每 次 命中 的 概率 是 50%， 那 么 一 场 比 
赛 中 至 少 有 一 名 球员 投 复命 中 10 次 的 概率 是 多 少 ? 另 假设 一 个 赛季 是 82 场 比赛 ， 如 果 你 看 完 
整个 赛季 ， 那 么 至 少 看 到 一 次 连续 10 次 命中 或 连续 10 次 不 命中 的 概率 是 多 少 ? 


这 个 问题 说 明了 蒙特 卡 罗 模 拟 的 优 缺 点 。 其 优点 是 编写 模拟 简单 快速 ， 不 需要 对 概率 有 深入 


理解 ， 缺 点 则 是 对 于 罕见 事件 的 模拟 需要 很 长 的 时 间 。 稍 做 点 儿 分 析 可 以 省 下 大 量 的 计算 资 
源 。 
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1941 年 ，Joe DiMaggio 在 连续 56 场 比赛 中 都 有 得 分 记录 [2] 。 人 很 多 棒球 爱好 者 都 觉得 这 是 
体育 史上 一 项 伟大 的 成 就 ， 因 为 这 太 少 见 了 。 


[2] 详 见 http:/wikipedia.org/wiki/Hitting_streak。 


用 蒙特 卡 罗 模 拟 估 计 接 下 来 的 一 个 世纪 中 ， 棒 球 大 联盟 比赛 中 有 球员 在 连续 57 场 或 更 多 场 比 
赛 中 有 得 分 记录 的 概率 。 
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根据 疾 控 中 心 (CDC) 的 定义 ， 癌 症 聚 集 (cancer cluster) 指 的 是 “在 一 段 时 间 内 ， 某 个 地 区 
的 人 群 中 的 癌症 病例 高 于 预期 值 ”。 [3] 


[3] 源 自 http://cdc.gov/nceh/clusters/about.htm。 


很 多 人 觉得 癌症 聚集 是 环境 悉 化 的 证 据 ， 但 很 多 科学 家 和 统计 学 家 觉得 研究 癌症 聚集 纯 属 浪 
费时 间 。 [4] 为 什么 ?其 中 一 个 原因 就 是 癌症 聚集 是 神枪手 廖 误 的 典型 例子 (Sharpshooter 
Fallacy， 详 见 http://wikipedia.org/wiki/Texas_sharpshooter fallacy) 。 


[4] 参见 Gawande, “The Cancer Cluster Myth,” New Yorker, Feb 8, 1997。 
不 过 ， 只 要 有 人 报告 癌症 聚集 ，CDC 还 是 有 责任 进行 调查 。 根 据 他 们 的 网 页 : 
调查 


调查 员 先 确定 “病例 "的 定义 ， 所 关注 的 时 间 段 ， 以 及 有 风险 的 人 群 。 然 后 计算 预期 值 ， 并 将 其 
与 实际 观察 到 的 值 作 上 比较。 如 果 观 察 值 和 预期 值 的 比值 大 于 1 且 差 异 是 统计 显著 的 ， 就 确认 了 
存在 聚集 现象 。 


1. 假设 某 种 癌症 每 年 的 发 病 率 是 千 分 之 一 。 如 果 对 100 个 人 跟踪 10 年 ， 应 该 能 观察 到 一 例 病 
人 。 如 果 有 两 例 也 并 不 奇怪 ， 但 超过 两 例 就 比较 少见 了 。 写 个 程序 模拟 大 量 人 群 的 10 年 
期 发 病情 况 ， 估 计 出 总 病例 数 的 分 布 。 

2. 当 某 个 观察 值 在 完全 随机 的 情况 下 出 现 的 概率 〈 即 p 值 ) 小 于 5% 时 ， 我 们 就 说 它 是 统计 
显著 的 。 在 100 个 人 历经 10 年 的 观察 数据 中 ， 要 出 现 多 少 病例 才能 满足 这 个 要 求 ? 

3， 现在 将 10 000 个 人 分 为 100 个 由 100 人 组 成 的 人 群 ， 跟 踪 10 年 。 其 中 至 少 有 一 个 人 群 出 
现 “ 统 计 显著 "聚集 的 概率 是 多 少 ? 如 果 把 p 值 的 要 求 改 成 1% 呢 ? 

4. 现在 将 10 000 人 放 到 100 乘 100 的 格子 中 ， 跟 踪 10 年 。 其 中 至 少 有 一 个 10 乘 10 的 方块 出 现 
统计 显著 聚集 的 概率 是 多 少 ? 

5.， 最 后 ， 对 方 格 中 的 10 000 个 人 跟踪 30 年 。 其 中 某 个 10 乘 10 的 方块 在 某 10 年 间隔 中 出 现 统 
计 显 著 聚集 的 概率 是 多 少 ? 


5.7 贝 叶 斯 定理 


贝 叶 斯 定理 (Bayes's theorem) 描述 的 是 两 个 事件 的 条 件 概 率 之 间 的 关系 。 条 件 概 率 通常 写 
成 P(AIB)， 表 示 的 是 在 事件 B 已 发 生 的 情况 下 事件 A 发 生 的 概率 。 贝 叶 斯 定理 用 公式 表达 如 
下 : 


PUB) = P(BIA)P(A)/P(B) 
为 了 说 明 这 个 公式 的 正确 性 ， 不 妨 把 事件 A 和 事件 B 同 时 发 生 的 概率 写作 P(AB) 
P(AB) = P(A)P(B|A) 
同样 
P(AB) = P(B)P(A|B) 
也 是 成 立 的 ， 因 此 : 
P(B)P(A|IB) = P(A)P(B|A) 
两 边 都 除 以 P(B) 就 得 到 了 贝 叶 斯 定理 [1] 。 
[1] 详 见 http:/wikipedia.org/wiki/Q.E.D.。 
贝 叶 斯 定理 通常 用 于 解释 某 一 特定 现象 的 证 据 E 如 何 影响 假设 H 的 概率 : 
P(HIE) = P(H)P(EIH)/P(E) 


这 个 等 式 的 意思 是 : 在 看 到 E 之 后 H 的 概率 P(HIE)， 等 于 看 到 该 证 据 前 H 的 概率 P(H)， 乘 以 假 
设 H 为 真 的 情况 下 看 到 该 证 据 的 概率 P(E|H) 与 在 任何 情况 下 看 到 该 证 据 的 概率 P(E) 的 比值 
P(EIHXP(E)。 


这 种 解读 贝 叶 斯 定理 的 方法 叫做 “历时 性 ”(diachronic) 解读 ， 因 为 这 描述 了 假设 成 立 的 概率 
随时 间 发 生 的 变化 ， 这 种 变化 通常 都 是 因为 出 现 了 新 证 据 。 在 这 种 情况 下 ，P(H) 称 为 先 验 概 
率 (prior probability) ， 而 P(HIE) 称 为 后 验 概率 (posterior probability) 。P(EIH) 是 证 据 的 似 
然 值 (likelihood of evidence) ，P(E) 是 为 一 化 常量 (normalization constant) 。 


贝 叶 斯 定理 的 一 个 经 典 应 用 就 是 解读 临床 检测 。 例 如 ， 学 校 和 工作 单位 违禁 药物 检查 正 变 得 
越 来 越 普通 ( 详 见 http://aclu.org/drugpolicy/testing) 。 采 用 这 些 检查 的 用 人 单位 希望 这 些 检 
查 是 敏感 的 ， 即 当 样 品 中 有 药物 〈 或 相关 代谢 物 ) 时 要 得 到 一 个 阳性 结果 ， 而 且 要 是 特异 
的 ， 即 当 样 品 中 没有 药物 时 得 到 阴性 结果 。 


根据 美国 医学 协会 杂志 (Journal of the American Medical Association) 的 估计 [2] ， 常 规 
药检 的 灵敏 度 大 约 是 60%， 特 异性 大 概 是 99%。 


[2] 我 是 从 Gleason 和 Barnum 的 “Predictive Probabilities In Employee Drug-Testing 一 
文中 看 到 这 些 数据 的 ， 网 址 是 http:/piercelaw.edu/risk/vol2/wintergleason.htm。 


现在 假设 这 种 常规 检查 适用 于 实际 使 用 违禁 药物 比例 为 5% 的 职工 人 群 ， 那 么 检查 结果 为 阳性 
的 尾 员 中 有 多 少 真 正 使 用 了 违禁 药物 ? 


在 贝 叶 斯 理论 中 ， 我 们 要 计算 的 就 是 当 检查 结果 为 阳性 时 ， 用 药 的 概率 P(DIE)。 根 据 贝 叶 斯 
定理 : 


P(DIE) = P(D)P(EID)/ PE) 


先 验 概率 P(D) 就 是 我 们 看 到 检查 结果 之 前 用 药 的 概率 ( 即 5%) ， 似 然 值 P(E|D) 就 是 使 用 了 违 
禁 药 的 情况 下 检查 结果 为 阳性 的 概率 ( 即 灵敏 度 ) 。 


计算 兴 一 化 常量 P(E) 会 稍微 困难 点 。 要 考虑 两 个 概率 ，P(EID) 和 P(EIN)， 其 中 N 代 表 受 试 者 没 
有 用 药 的 假设 : 


P(E) = P(D)P(E|ID) + P(N)P(EIN) 


假 阳 性 的 概率 P(EIN) 跟 特异 性 是 互补 的 ， 即 1%。 把 这 些 放 在 一 起 ， 我 们 得 到 : 
P(D)P(EID) 
P(D)P(EID)+ P(N)P(EIN) 


代入 相应 的 值 ， 我 们 得 到 P(D|E) = 0.76， 这 意味 着 每 四 个 检查 结果 为 阳性 的 人 中 大 概 有 一 个 
是 被 冤枉 的 。 


P(DIE) = 


习题 5-14 


写 个 程序 ， 输 入 参数 是 用 药 的 实际 比例 、 监 测 的 有 灵敏度 和 特异 性 ， 然 后 根据 贝 叶 斯 定理 计算 
P(DIE)。 


假设 将 同样 的 检测 用 到 用 药 比 例 为 1% 的 人 群 ， 检 查 结果 为 阳性 的 人 真正 用 药 的 概率 是 多 少 ? 


习题 5-15 
这 个 练习 来 自 http://wikipedia.org/wiki/Bayesian_inference。 


假设 有 两 碗 饼干 。 一 个 碗 中 有 10 片 巧克力 饼干 和 30 片 普通 饼干 ， 而 另 一 个 碗 中 巧克力 饼 
干 和 普通 人 饼干 各 有 20 片 。 我 们 的 朋友 Fred 随 机 选 了 一 个 砚 ， 然 后 随机 地 从 中 取出 一 片 饼 
干 。 那 么 Fred 从 第 一 个 碗 中 取出 普通 饼干 的 概率 是 多 少 ? 


习题 5-16 


蓝 色 的 M&M 巧克力 豆 是 1995 年 上 市 的 。 在 那 之 前 ， 一 和 袋 混合 M&M 巧克力 豆 的 组 成 是 30% 棕 
色 、20% 黄 色 、20% 红 色 、10% 绿 色 、10% 榜 色 和 10% 褐 色 ; 1995 年 之 后 ， 其 组 成 是 24% 蓝 
色 、20% 绿 色 、16% 检 色 、14% 黄 色 、13% 红 色 和 13% 棕 色 。 


我 的 一 个 朋友 有 两 袋 M&M， 其 中 一 袋 是 1994 年 产 的 ， 另 一 袋 是 1996 年 产 的 。 但 他 没有 告诉 我 
到 底 哪 一 袋 是 1994 年 的 ， 哪 一 袋 是 1996 年 的 。 现 在 朋友 从 两 袋 中 各 取出 一 粒 巧克力 豆 ， 一 粒 
是 黄色 ， 一 粒 是 绿色 。 黄 色 巧 克 力 豆 来 自 1994 年 那 袋 的 概率 是 多 少 ? 


习题 5-17 


这 个 练习 改编 自 MacKay 的 Information Theory, Inference, and Learning Algorithms 一 书 。 


猫 王 Elvis Presley 有 一 个 双胞胎 兄弟 ， 但 不 幸 在 出 生 时 就 天 折 了 。 根 据 维基 百科 上 对 双胞胎 的 


介绍 : 


双胞胎 占 全 世界 人 口 的 比例 大 概 是 1.9%， 同 卵 双 胞 胎 的 比例 大 概 是 0.2%， 占 所 有 双胞胎 


那么 ，Elvis 与 天 折 的 兄弟 为 同 卵 双胞胎 的 概率 是 多 少 ? 


5.8 术语 


贝 叶 斯 认识 论 (Bayesianism) 一 种 对 概率 更 泛 化 的 解释 ， 用 概率 表示 可 信 的 程度 。 
变异 系数 (coefficient of variation) 度量 数据 分 散 程度 的 统计 量 ， 按 集中 趋势 及 一 化 ， 
用 于 上 比较 不 同 均 值 的 分 布 。 

事件 (event) 按 一 定 概率 发 生 的 事情 。 

失败 (failure) 事件 没有 发 生 的 试验 。 

频率 论 (frequentism) 对 概率 的 一 种 严格 解读 ， 认 为 概率 只 能 用 于 一 系列 完全 相同 的 
试验 。 

独立 (independent) 若 两 个 事件 之 间 相 互 没有 影响 ， 就 称 这 两 个 事件 是 独立 的 。 

证 据 的 似 然 值 (likelihood of the evidence) 贝 叶 斯 定理 中 的 一 个 概念 ， 表 示 假 设 成 立 
的 情况 下 看 到 该 证 据 的 概率 。 

蒙特 卡 罗 模 拟 (Monte Carlo simulation) 通过 模拟 随机 过 程 计算 概率 的 方法 ( 详 见 
http://wikipedia.org/wiki/Monte_Carlo_ method) 。 

为 一 化 常量 (normalizing constant) 贝 叶 斯 定理 中 的 分 母 ， 用 于 将 计算 结果 愉 一 化 为 
后 验 (posterior) 贝 叶 斯 更 新 后 计算 出 的 概率 。 

先 验 (prior) 贝 叶 斯 更 新 前 计算 出 的 概率 。 

成 功 (success) 事件 发 生 了 的 试验 。 

试验 (trial) 对 一 系列 事件 是 否 可 能 发 生 的 尝试 。 

更 新 (update) * 用 数据 修改 概率 的 过 程 。 


辽 


第 6 章 分 布 的 运算 


6.1 偏 度 


偏 度 (skewness) 是 度量 分 布 画 数 不 对 称 程度 的 统计 量 。 对 于 一 个 给 定 的 序列 x;， 样 本 偏 度 
的 定义 为 : 


3.7/2 
91 一 ma3/rn3/ 


m2 一 2.i(2 二 1)? 
13 一 -i Di(Ti 于 1)3 


这 里 m? 是 均 方 离 差 〈 即 方差 ) ，m3 是 平均 的 立方 离 差 。 


负 的 偏 度 表示 分 布 向 左 偏 (skews left) ， 此 时 分 布 本 数 的 左边 会 比 右边 延伸 得 更 长 ; 正 的 偏 
度 表 示 分 布 本 数 向 右 含 。 


上 述 计算 样本 偏 度 的 公式 在 实际 应 用 中 使 用 得 并 不 多 。 因 为 如 果 桩 本 中 存在 异常 值 ， 那 么 这 
些 异 常 值 可 能 对 偏 度 的 值 产生 非常 大 的 影响 。 


另外 一 个 评价 分 布 画 数 非 对 称 程度 的 方法 是 比较 均值 和 中 位 数 的 大 小 。 相 比 于 中 位 数 而 言 ， 
均值 更 容易 受 极端 值 的 影响 ， 所 以 如 果 一 个 分 布 函 数 是 向 左 偏 的 ， 那 么 该 分 布 的 均值 就 会 小 
于 中 位 数 。 


皮尔 运 中 值 偏 度 系数 (Pearson's median skewness coefficient) 就 是 一 个 基于 这 种 思想 的 偏 


度 度量 〈 其 中 为 均值 ，ja /2 为 中 位 数 ) 


gp 三 3(4 一 Al/2)/a 


该 统计 量 是 偏 度 的 一 个 鲁 棒 估计 ， 它 对 异常 值 的 影响 不 敏感 。 
习题 6-1 


请 编写 一 个 Skewness 画 数 ， 计 算 一 组 样本 数据 的 qi。 


请 计算 怀孕 周期 和 出 生体 重 分 布 的 偏 度 ， 这 两 个 结果 是 否 与 分 布 的 形状 一 致 


请 编写 一 个 PearsonSkewness 函 数 ， 并 用 这 个 函数 计算 这 些 分 布 的 g,。 请 比较 gv 和 gi 计算 结 
果 的 差别 。 


习题 6-2 


乌 比 冈 湖 效应 [1] (Lake Wobegon effect) 是 一 种 有 趣 的 心理 学 现象 ， 也 称 虚 幻 的 优越 性 
( illusory superiority) ， 是 指 人 们 通常 会 觉得 自己 各 方面 的 能 力 都 比 社 会 上 的 平均 水 平 高 的 
一 种 心理 倾向 。 例 如 ， 在 一 些 研究 中 ， 超 过 80% 的 受 调查 者 认为 他 们 的 驾驶 技术 高 于 平均 水 
平 (参见 http://wikipedia.org/wiki/lllusory_superiority ) 。 


[1] 参见 http://wikipedia.org/wiki/Lake_Wobegon。 


假如 社会 平均 水 平 指 的 是 中 位 数 ， 那 么 上 述 结果 在 逻辑 上 是 不 可 能 出 现 的 。 但 是 如 果 我 们 将 
平均 水 平定 义 为 均值 ， 那 么 上 述 结果 就 有 可 能 出 现 ， 哩 然 可 能 性 不 大 。 


想 想 ， 长 两 条 腿 以 上 的 人 会 占 总 人 口 的 多 少 呢 ? 


习题 6-3 


美国 国税 局 (IRS) 在 其 网 站 http://irs.gov/taxstats 上 提供 了 包括 收入 所 得 税 在 内 的 一 些 统计 数 
据 。 如 果 做 过 习题 4-13， 你 应 该 已 经 接触 过 这 些 数 据 ; 如 果 没 有 做 过 ， 那 么 请 按 习 题 4-13 的 
说 明 从 数据 集中 提取 收入 的 分 布 信息 。 


请 问 有 多 大 上 比例 的 人 申报 的 应 纳税 收入 低 于 均值 ? 


请 计算 收入 数据 的 均值 、 中 位 数 、 偏 度 和 皮尔 逊 中 值 偏 度 系 数 。 由 于 数据 已 经 按 一 定 的 区 间 
进行 了 划分 ， 这 里 的 结果 是 一 些 近似 值 。 


基尼 系数 (Gini coefficient) 是 一 个 衡量 收入 不 平衡 程度 的 指标 。 参 考 
http://wikipedia.org/wiki/Gini _coefficient 的 信息 编写 一 个 名 为 Gini 的 函数 ， 用 于 计算 收入 分 布 
的 基尼 系数 。 


提示 : 可 用 PMF 计 算 相 对 平均 差 (relative mean different) ， 参 
考 http://en.wikipedia.org/wiki/Mean _difference 。 


可 以 从 这 里 下 载 到 该 问题 的 参考 答案 http://thinkstats.com/gini.py 。 


6.2 [随机 变量 


随机 变量 (random variable) 代表 产生 随机 数 的 过 程 。 随 机 变量 一 般 用 大 写字 母 表 示 ， 如 X。 
当 你 看 到 一 个 随机 变量 时 ， 可 以 把 它 想 成 从 某 个 分 布 画 数 抽出 来 的 值 。 


累积 分 布 函 数 (cumulative distribution function) 的 形式 化 定义 为 : 


CDFx(zx) = P(X < 7) 


到 目前 为 止 ， 我 一 直 在 尽量 避免 使 用 这 类 数学 符号 ， 因 为 这 些 符 号 总 有 点 难以 理解 。 这 个 公 
式 对 累积 分 布 函 数 进行 了 定义 : 随机 变量 X 的 累积 分 布 函 数 在 某 个 特定 的 值 x 上 的 函数 值 被 定 
义 为 随机 变量 X 小 于 等 于 x 的 概率 。 


从 计算 机 人 士 的 角度 看 ， 我 们 可 以 将 随机 变量 设想 成 一 个 提供 方法 的 对 象 ， 闻 该 方法 命名 为 
generate， 它 能 利用 随机 过 程 产生 一 些 值 。 


例如 ， 下 面 的 代码 可 以 用 来 表示 随机 变量 的 一 个 类 : 


class RandomVariable(object): 
Parent classefor ainrandom varvablese 


一 个 服从 指数 分 布 的 随机 变量 : 


class Exponential(RandomVariable): 
def LNCSel am): 
self.lam = lam 


def generate(self): 
return random.expovariate(self.1am) 


init 方 法 接受 一 个 参数 和 并 将 其 作为 属性 存储 起 来 ，generate 返回 了 一 个 服从 参数 为 和 的 指数 分 
布 的 随机 数 。 


每 调用 一 次 generate 都 将 得 到 一 个 不 同 的 数值 。 得 到 的 数值 称 为 随机 数 (random variate) 。 
这 就 是 在 random 模 块 中 很 多 函数 的 名 字 都 包含 variate 的 原因 。 


如 果 仅 仅 是 为 了 产生 服从 指数 分 布 的 随机 数 ， 或 许 不 用 费心 地 定义 一 个 新 类 ， 可 能 直接 用 
random.expovariate 实 现 就 行 了 。 但 是 对 于 其 他 分 布 ， 用 RandomVariable 对 象 会 是 更 好 的 选 
择 。 例 如 ， 爱 尔 朗 分 布 (Erlang distribution) 是 一 个 连续 型 分 布 ， 有 两 个 参数 和 和 k。 (参考 
http://wikipedia.org/wiki/Erlang_distribution) 。 


一 种 产生 服从 爱 尔 朗 分 布 的 随机 数 的 方法 是 ， 将 k 个 服从 参数 为 的 指数 分 布 的 随机 数 进行 求 


和 。 这 里 是 它 的 一 个 实现 : 


class Erlang(RandomVariable): 
def nnnt sel am kl: 
self.lam = lam 
self.k = k 
self.expo = Exponential(lam) 


def gqenerate(seLf): 
total = 0 
for i in range(self.k): 
total += self.expo.generate() 
return total 


init 方 法 产生 一 个 给 定 参 数 的 指数 分 布 对 象 ，generate 可 以 调用 它 。 通 常 ， 


意 一 组 参数 ， 而 generate 画 数 则 能 实现 任意 随机 过 程 。 


习题 6-4 


init 方 法 可 以 接受 任 


请 编写 一 个 服从 耿 贝 尔 分 布 (Gumbel distribution) 的 随机 变量 的 类 的 定义 。 ( 耿 忠 尔 分 布 请 


参考 http://wikipedia.org/wiki/Gumbel_distribution。) 


6.3 概率 密度 函 效 


累积 分 布 画 数 的 导数 称 为 概率 密度 函数 (probability density function) ， 简 记 为 PDF。 例 如 ， 
引 数 分 布 的 概率 密度 画 数 为 : 


PDFizpo(¥) = Xe 屏 


正 态 分 布 的 概率 密度 男 数 为 : 


1 攻 1 导 一 内 
DD 
概率 密度 函数 的 值 并 不 是 概率 ， 它 表示 的 是 一 种 概率 密度 (probability density) 。 


物理 学 中 ， 密 度 指 的 是 单位 体积 内 物质 所 拥有 的 质量 ， 质 量 就 等 于 体积 乘 以 密度 。 如 果 物 体 
的 密度 不 固定 ， 即 不 同 部 位 密度 不 同 ， 那 么 我 们 可 以 通过 对 密度 事 数 进行 积分 得 到 质量 。 


PDFormal (7) = )] 





同样 地 ， 概 率 密 度 衡量 的 是 x 轴 上 每 个 单位 的 概率 。 为 了 得 到 随机 变量 落 在 某 个 区 闻 的 概率 
[1] ， 我 们 可 以 计算 其 密度 函数 在 这 段 区 间 上 的 积分 。 假 设 随机 变量 X 的 概率 密度 函数 为 


PDFx， 那 么 X 落 在 区 间 [-0.5, 0.5) 的 概率 为 : 


0.5 
P(—0.5<X<0.5)= PDFx(z)dz 
一 0.5 


[1] 我 们 可 以 解释 得 更 具体 一 些 ， 分 布 的 均值 是 质心 ， 方 差 是 转动 惯量 。 








间 


因为 累积 分 布 本 数 是 概率 密度 酚 数 的 积分 ， 所 以 上 式 也 可 以 写成 : 


P(-0.5<X<0.5)= CDFx(0.5) — CDFx(—0.5) 


对 有 些 分 布 ， 我 们 能 够 得 到 累积 分 布 画 数 的 解析 表达 式 ， 这 时 可 以 采用 第 二 种 表达 方式 。 对 
于 一 些 无 法 得 到 累积 分 布 酌 数 解析 表达 式 的 分 布 ， 可 以 用 数值 积分 的 方法 来 计算 X 在 某 个 区 间 
上 的 概率 。 


习题 6-5 


假设 一 个 随机 变量 X 服 从 参数 为 的 指数 分 布 ， 那 么 X 落 在 区 间 [1, 20] 的 概率 是 多 少 ? 请 将 结果 
表示 成 一 个 关于 和 的 函数 ， 并 保留 推导 结果 ， 我 们 将 在 8.8 节 用 到 。 


习题 6-6 


从 BRFSS ( 见 4.5 节 ) 的 数据 中 ， 我 们 发 现 人 类 身高 大 致 服从 正 态 分 布 ， 男 性 身高 的 均值 为 
178 cm、 方 差 为 59.4 cm ; 女性 身高 的 均值 为 163 cm、 方差 为 52.8 cm。 


蓝 人 乐团 要 求 成 员 为 男性 ， 身 高 介 于 178 cm 和 185 cm 之 间 ， 那 么 在 美国 男性 中 身高 介 于 该 区 
间 的 人 有 多 少 ? 


6.4 人 肉 积 
设 两 个 随机 变量 X 和 Y 的 累积 分 布 函 数 分 别 为 CDFX 和 CDFY，Z=X+Y， 那 么 Z 服 从 什么 分 布 
呢 ? 


一 种 简单 的 估算 Z 的 分 布 的 方法 是 编写 一 个 RandomVariable 对 象 ， 产 生 一 些 X 和 Y， 然 后 将 它 
们 加 起 来 。 下 面 是 这 种 方法 的 代码 实现 : 


class Sum(RandomVariable): 
defoaaniteal(X 
self.X= X 
self.Y=Y 
def generate( ) : 


return X.generate() + Y.generate() 


我 们 可 以 产生 很 多 Z 的 随机 数 ， 然 后 估计 CDFz。 


上 述 方法 是 一 个 非常 简单 直观 的 方法 ， 但 不 是 很 有 效 。 为 了 能 对 CDFz 有 一 个 较 准确 的 估计 ， 
我 们 必须 产生 大 量 的 Xx 和 Y 的 随机 数 。 而 且 不 管 这 个 精度 被 提高 到 什么 程度 ， 它 总 为 不 是 Z 的 
真实 分 布 。 
假设 随机 变量 X 和 YY 的 累积 分 布 画 数 CDFx 和 CD 有 解析 表达 式 ， 在 某 些 情况 下 我 们 可 以 通 
过 数学 推导 得 到 CDFz 的 解析 表达 式 。 
接 下 来 介绍 公式 推导 过 程 。 
1. 从 最 简单 的 情况 出 发 ， 假 设 随 机 变量 X 只 能 某 个 值 x， 这 时 CDFz(z) 等 于 

P(Z <z|X=7x)= P(Y <z— 2) 


上 述 等 式 的 左 半 部 分 表示 的 是 “在 给 定 X=x 的 条 件 下 ，X+Y 小 于 z 的 概率 "。 显 然 ， 要 使 X+Y 小 于 
z， 就 要 求 Y 必 须 小 于 Zz-x。 


2. 接 下 来 ， 我 们 计算 Y 小 于 z-x 的 概率 ， 根 据 Y 的 累积 分 布 本 数 有 
P(Y <z—7)= CDFy(z— 2) 


3. 上 述 推导 过 程 假 设 X 取 某 个 固定 值 ， 但 实际 上 它 是 一 个 随机 变量 。 所 以 ， 我 们 还 必须 考虑 X 
在 其 取 值 范围 内 的 所 有 情况 ， 于 是 : 


a 广 BlZ < lo PDE 


被 积 图 数 等 于 “给 定 X=x 的 条 件 下 ， 随 机 变量 Z 小 于 等 于 z 的 概率 乘 以 X=x 的 概率 ”。 


将 前 面 两 步 的 结果 带 入 公式 ， 有 

J 人 0 
等 式 左边 就 是 CDFz 的 定义 ， 整 理 可 得 : 

ODE) = 人 We 


4. 我 们 可 以 通过 对 CDFz 求 导 得 到 PDFz， 结 果 如 下 : 


PDFz(z) = "De 


如 果 读 者 之 前 学 过 信号 与 系统 等 课程 ， 或 许 对 这 个 积分 公式 不 会 感到 陌生 。 它 表示 的 是 概率 


密度 画 数 PDFx 和 PDFy 的 谷 积 (convolution) 。 谷 积 运算 一 般 用 运算 符 * 表 示 。 


PDFz = PDFY * PDFx 


综 上 可 知 ， 两 个 随机 变量 的 和 的 分 布 就 等 于 两 个 概率 密度 的 矢 积 。 参 考 
http://wiktionary.org/wiki/booyah! 


下 面 我 们 通过 一 个 例子 来 说 明 如 何 计算 。 设 随机 变量 X 和 Y 服 从 参数 为 的 指数 分 布 ， 则 随机 变 
量 Z=X+Y 的 概率 密度 为 : 


PDPz(z) 一 / PDFx(z)PDFYy(z 一 Z)dz sy 和 Ne-Az Ae N27) gz 


a 一 OO 


因为 X 和 Y 服 从 指数 分 布 ， 它 们 取 负 数 的 概率 为 0， 所 以 我 们 可 以 对 上 述 积 分 公式 的 下 限 进行 调 


整 : 
PDFz(2z) =/ 和 Xe Ae Nr) qr 
0 
整理 可 得 : 


PDFz(z) = | dz = Nze 
0 


这 是 参数 为 J : 朗 分 布 的 概率 密度 辑 数 ， 这 里 k=2。 所 以 两 个 有 相同 参数 的 指数 分 布 的 
谷 积 是 一 尔 朗 分 布 。 爱 尔 朗 分 布 参考 http://en.wikipedia.org/wiki/Erlang_distribution 。 
习题 6-7 


假设 随机 变量 X 服 从 参数 为 的 指数 分 布 ，Y 服 从 参数 为 KR 和 和 的 爱 尔 朗 分 布 ，Z=X+Y， 那 么 Z 服 
从 什么 分 布 呢 ? 


习题 6-8 


假设 我 们 从 一 个 分 布 中 抽取 两 个 样本 XI 和 Xo2， = maz(X1,X2)， 那 么 Y 服 从 什么 分 布 呢 ? 
请 分 别 用 PDF 和 CDF 的 形式 表示 。 

随 着 值 数量 的 增多 ， 最 大 值 的 分 布 会 收敛 到 某 个 极 值 的 分 布 ， 参 

考 http://wikipedia.org/wiki/Gumbel_distribution。 

习题 6-9 


假设 我 们 有 随机 变量 X 和 Y 的 Pmf，Z=X+Y， 那 么 就 可 以 通过 枚 举 法 得 到 Z 所 有 可 能 的 取 值 : 


for x in pmf_x.Values(): 
for y In pmf_y.Values(): 
z=x+y 


请 编写 一 个 关于 PMFx 和 PMFy 的 函数 ， 用 于 计算 Z 的 PMF。 


请 再 编写 一 个 类 似 的 函数 ， 用 于 计算 max(X,Y) 的 PMF。 


6.5 正 态 分 布 的 性 质 


我 们 在 本 书 的 前 面部 分 提 到 了 正 态 分 布 具有 非常 好 的 统计 性 质 ， 但 是 并 未 解释 原因 。 这 里 我 
们 给 出 一 个 解释 : 正 态 分 布 对 线性 变换 和 众 积 运算 是 封闭 的 〈closed) 。 为 了 说 明 这 些 ， 我 们 
引进 几 种 记 法 。 


假设 一 个 随机 变量 X 服 从 参数 为 bH 和 Ga 的 正 态 分 布 ， 我 们 可 以 将 其 简 记 为 : 

和 ~WMo) 

这 里 记号 ~ 表示 服从 某 种 分 布 ， 花 体 字母 W 表 示 正 态 分 布 。 

形 如 X' = aX + 的 表达 式 称 为 随机 变量 X 的 一 个 线性 变换 ， 这 里 a 和 b 为 实数 。 当 届 ' 与 乏 属 于 
同一 分 布 族 时 ， 我 们 说 该 分 布 族 对 线性 变换 是 封闭 的 。 正 态 分 布 就 具有 这 种 性 质 。 假 如 

天 ~~N(4,o?)， 那 么 


KX’ ~ N(ap + b,a’o) 
正 态 分 布 对 着 积 运算 也 是 封闭 的 。 若 2 = 和 十 站， 且 瑟 ~ Na) 开 ~ No)， 那 么 


ee 


我 们 之 前 遇见 的 那些 分 布 都 不 能 满足 这 些 性 质 。 
习题 6-10 
假设 ~N(pz,02)，Y ~N(jwy,02)，2Z = aX 十 bY， 请 计算 Z 的 分 布 玫 数 。 


习题 6-11 


让 我 们 看 一 下 如 果 两 个 连续 型 的 分 布 相 加 ， 结 果 会 是 什么 样 。 首 先 从 指数 分 布 、 正 态 分 布 、 
对 数 正 态 分 布 和 帕 累 托 分 布 中 任意 挑选 两 个 分 布 ， 并 调整 参数 使 得 这 两 个 分 布 的 均值 和 方差 
相近 。 


将 两 个 分 布 产生 的 随机 数 相 加 ， 计 算 其 分 布 。 请 利用 第 4 章 中 的 方法 来 测试 这 两 个 分 布 的 和 是 
否 可 以 用 一 个 连续 型 的 分 布 来 表示 。 


6.6 中 心 极限 定理 


到 目前 为 止 ， 我们 已 经 知道 : 


。 如 果 将 一 些 服从 正 态 分 布 的 数据 加 起 来 ， 得 到 的 和 也 服从 正 态 分 布 ; 
。 如 果 将 一 些 不 服从 正 态 分 布 的 数据 加 起 来 ， 那 么 得 到 的 结果 一 般 情况 下 不 会 服从 前 面 讲 
过 的 连续 分 布 。 


理论 上 我 们 已 经 证 明了 : 如 果 将 大 量 服从 某 种 分 布 的 值 加 起 来 ， 所 得 到 的 和 会 收 化 到 正 态 分 
布 。 


假设 随机 变量 X 的 均值 和 标准 差 为 和 0， 那 么 n 个 随机 变量 X 的 和 淅 进 地 服从 N (ny, nao?)。 


上 述 理论 称 为 中 心 极限 定理 (Central Limit Theorem) ， 它 是 统计 分 析 中 非常 重要 的 工具 。 但 

是 这 个 定理 的 成 立 要 求 满足 一 些 条 件 。 

。 用 于 求 和 的 数据 必须 满足 独立 性 。 

。 数据 必须 服从 同一 个 分 布 〈 这 个 要 求 可 以 被 适当 地 放松 ) 。 

。 产生 这 些 数据 分 布 的 均值 和 方差 必须 是 有 限 的 〈 所 以 帕 累 托 分 布 就 不 能 满足 这 个 条 件 
了 ) OD 

。 收 伍 的 速度 取决 于 原来 分 布 的 偏 度 。 如 果 数 据 服从 指数 分 布 ， 那 么 这 些 数据 的 和 将 会 很 
快 收 和 健 ; 但 如 果 数 据 服 从 对 数 正 态 分 布 ， 那 么 收敛 速度 就 没 那么 快 了 。 


中 心 极限 定理 部 分 解释 了 为 什么 正 态 分 布 在 自然 界 中 广泛 存在 。 绝 大 多 数 动物 (或 者 其 他 生 
命 形式 ) 的 特征 ， 如 体重 ， 都 会 受到 大 量 遗 传 和 环境 因素 的 影响 ， 而 且 这 些 影响 是 具有 可 加 
性 的 。 我 们 观测 到 的 这 些 特征 是 大 量 微 效 因素 的 加 和 ， 所 以 它们 都 近似 地 服从 正 态 分 布 。 


习题 6-12 


假设 z1,…, zn 是 服从 同一 分 布 的 独立 数据 ， 且 均值 4 和 方差 o? 都 是 有 限 的 ， 那 么 样本 均值 服从 
什么 分 布 呢 ? 


人 > 2 
样本 均值 的 方差 会 随 着 n 的 增 大 发 生 什么 样 的 变化 ? 提示 : 可 以 回想 一 下 6.5 节 的 开头 。 
习题 6-13 


从 指数 分 布 、 对 数 正 态 分 布 、 帕 办 托 分 布 中 选择 一 个 分 布 图 数 ， 然 后 产生 一 组 随机 数 〈 个 数 
为 2、4 或 8 等 ) ， 计 算 它 们 和 的 分 布 。 画 出 分 布 图 看 看 是 否 接近 正 态 分 布 ? 当 随 机 序列 的 长 度 
多 长 时 会 收 化 到 正 态 分 布 ? 


习题 6-14 


如 果 我 们 不 计算 它们 的 总 和 ， 而 是 改 成 计算 它们 的 乘积 ， 那 么 随 着 项 数 增 多 ， 结 果 会 怎么 
样 ? 提示 : 看 看 乘积 对 数 的 分 布 。 


6.7 分 布 图 数 之 间 的 关系 框 洋 


到 现在 为 止 ， 我们 已 经 了 解 了 概率 质量 函数 (PMF) 、 累 积分 布 本 数 (CDF) 和 概率 密度 函 
数 (PDF) 等 概念 。 我 们 回顾 一 下 之 前 的 这 些 内 容 ， 图 6-1 列 出 了 这 些 画 数 之 间 的 关系 。 


连续 型 


离散 
CDF pe Tm 


图 6-1 分 布 图 数 之 间 的 关系 框架 


我 们 从 概率 质量 函数 出 发 ， 它 表示 的 是 离散 随机 变量 在 各 特定 取 值 上 的 概率 。 按 随机 变量 取 
值 的 大 小 将 其 概率 值 进 行 累 加 ， 就 可 以 得 到 累积 分 布 本 数 。 本 来 为 了 命名 的 连贯 性 ， 我 们 应 
该 将 这 里 的 累积 分 布 国 数 称 为 累积 质量 画 数 ， 但 到 目前 为 止 ， 还 没有 人 用 过 这 个 词 。 

我 们 也 可 以 从 时 积分 布 图 数 出 发 ， 通 过 差分 运算 得 到 概率 质量 画 数 。 

同 祥 地 ， 概 率 密 度 范 数 是 连续 型 累积 分 布 本 数 的 微分 ， 反 过 来 说 ， 累 积分 布 本 数 是 概率 密度 
函数 的 积分 。 这 里 要 注意 的 是 ， 概 率 密度 函数 表示 的 是 一 个 值 对 应 的 概率 密度 而 非 概率 ， 如 
果 要 计算 概率 ， 我 们 必须 对 概率 密度 进行 积分 。 

我 们 可 以 运用 多 种 方式 将 一 个 离散 型 的 分 布 变 成 连续 型 的 分 布 。 例 如 ， 可 以 认为 这 些 离散 的 
数据 来 自 一 个 连续 型 的 分 布 (比如 指数 分 布 或 者 正 态 分 布 ) ， 然 后 利用 这 些 数据 估计 分 布 的 
参数 。 这 些 内 容 我 们 将 在 第 8 章 进 行 更 深入 地 探讨 。 

假如 我 们 将 概率 密度 函数 按 一 定 的 区 间 进 行 分 段 ， 然 后 在 每 一 段 分 别 进行 积分 ， 这 样 就 将 一 
个 连续 型 的 分 布 离 散 化 了 ， 得 到 了 一 个 近似 概率 密度 函数 的 概率 质量 函数 。 在 第 8 章 ， 我 们 闻 
利用 这 个 方法 来 做 贝 叶 斯 估计 。 


习题 6-15 


请 编写 一 个 名 为 MakePmfFromCdf 的 函数 ， 用 来 将 分 布 的 CDF 转 换 成 对 应 的 PMF。 


访问 http://thinkstats.com/Pmf.py 查 看 本 练习 的 答案 。 


6.8 术语 表 


。 中 心 极限 定理 (Central Limit Theorem) * 早期 的 统计 学 家 弗朗西斯 高 尔 顿 副 士 认为 中 
心 极限 定理 是 “The supreme law of Unreason”。 

。 峪 积 (convolution) 一 种 运算 ， 用 于 计算 两 个 随机 变量 的 和 的 分 布 。 

。 虚幻 的 优越 性 (illusory superiority) 心理 学 概念 ， 是 指 人 们 普通 存在 的 将 自己 高 估 的 
一 种 心理 。 

。 概率 密度 函数 (probability density function) 连续 型 累积 分 布 函 数 的 导数 。 

。 随机 变量 (random variable) 一 个 能 代表 一 种 随机 过 程 的 客体 。 

。 随机 数 (random variate) 随机 变量 的 实现 。 

。 和 鲁 棒 性 (robust) 如 果 一 个 统计 量 不 容易 受到 异常 值 的 影响 ， 我 们 说 它 是 鲁 棒 的 。 

。 偏 度 (skewness) 分 布 本 数 的 一 种 特征 ， 它 度量 的 是 分 布 本 数 的 不 对 称 程度 。 


第 7 和 章 假设 检验 


从 NSFG (美国 全 国家 庭 成 长 调查 ) 提供 的 数据 中 ， 我 们 可 以 发 现 一 些 很 明显 的 现象 ， 例 如 第 
一 胎 婴 儿 与 非 第 一 胎 婴 儿 相 比 有 很 多 不 同 的 地 方 。 到 目前 为 止 ， 我们 仅 从 数值 大 小 的 角度 比 
较 了 这 些 效应 (effect) 。 接 下 来 我 们 将 对 这 些 效应 进行 统计 检验 。 

最 基本 的 问题 是 这 些 效应 是 真实 存在 的 还 是 随机 引起 的 。 例 如 ， 我 们 发 现 孕 妇 第 一 胎 的 怀孕 
周期 和 非 第 一 胎 的 不 同 ， 那 么 这 个 差异 是 确实 存在 的 还 是 偶然 引起 的 呢 ? 

我 们 难以 直接 回答 上 述 问 题 ， 但 可 以 将 其 拆 成 两 部 分 : 首先 检验 这 个 效应 是 否 具有 显著 性 ， 
然后 通过 解释 统计 检验 的 结果 来 回答 上 述 问 题 。 

在 统计 学 上 ， 显 著 性 (significant) 有 专门 定义 ， 与 通常 语义 下 的 用 法 不 同 。 如 本 书 前 面 提 到 
的 ， 我 们 说 一 个 效应 在 统计 学 上 具有 显著 性 ， 是 指 这 种 情况 在 一 次 试验 中 不 大 可 能 
(unlikely) 发 生 。 


为 了 让 上 述 表 述 更 加 精确 ， 我 们 必须 回答 如 下 三 个 问题 。 
“不 大 可 能 发 生 ”? 
是 “效应 ”? 


CD 
地 
六 


这 三 个 问题 要 比 看 起 来 难 很 多 ， 但 是 人 们 已 经 发 展 出 了 一 套 方法 来 进行 统计 显著 性 检验 。 


。 原 假设 (Null hypothesis) 基于 一 种 假设 的 系统 模型 ， 在 这 种 假设 下 我 们 认为 观测 到 的 
效应 是 由 偶然 因素 造成 的 。 

e。 p 值 (p-value) 在 原 假设 下 ， 出 现 直 观 效应 的 概率 。 

。 解释 (Interpretation) 基于 p 值 的 大 小 ， 推 断 观 测 到 的 效应 是 否 具有 统计 显著 性 。 


上 述 过 程 称 为 假设 检验 (hypothesis testing) 。 这 里 潜在 的 逻辑 类 似 于 数学 上 的 反 证 法 : 为 
了 证 明 数 学 命题 A 是 正确 的 ， 我 们 先 假设 A 是 错误 的 ， 如 果 基于 这 个 假设 得 出 了 矛盾 的 结果 ， 
那么 我 们 就 证 明了 A 是 正确 的 。 


同样 地 ， 为 了 检验 某 个 直观 效应 是 否 真实 存在 ， 我 们 首先 假设 这 个 效应 不 是 真实 存在 的 ， 即 
偶然 造成 的 〈 原 假设 ) 。 然 后 基于 这 个 原 假设 计算 出 发 生 这 种 效应 的 概率 (p 值 ) 。 如 果 p 值 
非常 小 ， 我 们 就 可 以 认为 原 假 设 不 大 可 能 是 真 的 。 


7.1 均值 差异 的 检验 


统计 检验 中 最 简单 的 一 种 检验 是 比较 两 组 数据 的 均值 是 否 存在 差异 。 在 NSFG 数 据 中 ， 我 们 发 
现 第 一 胎 枫 儿 怀 孕 周 期 的 均值 略 长 于 非 第 一 胎 娶 儿 ， 二 孚 周 期 的 均值 同时 第 一 胎 要 儿 出 生体 
重 的 均值 略 轻 于 非 第 一 胎 婴 儿 出 生体 重 的 均值 。 接 下 来 我 们 将 检验 这 些 差异 是 否 具有 统计 显 
著 性 。 


在 上 述 两 个 例子 中 ， 原 假设 是 两 个 分 组 的 分 布 相同 ， 出 现 上 述 差异 是 随机 因素 引起 的 。 


为 了 计算 p 值 ， 我 们 把 所 有 婴儿 (包括 第 一 胎 和 非 第 一 胎 ) 的 数据 混在 一 起 。 然 后 重新 随机 分 
成 两 组 : 第 一 组 的 样本 个 数 等 于 第 一 胎 婴 儿 的 样本 数 ， Anti 胎 婴 儿 
的 样本 数 。 每 次 分 完 组 后 ， 计 算 两 个 分 组 的 均值 的 差 。 这 个 差 值 相当 于 在 原 假设 (两 个 分 组 
没有 差异 ) 下 观测 到 的 差 值 。 


如 果 我 们 产生 足够 数量 的 这 种 分 组 样本 ， 可 以 统计 有 多 少 个 差 值 〈 由 于 随机 因素 引起 的 ) 大 
于 等 于 实际 上 我 们 观测 到 的 差 值 ， 这 个 比例 就 是 p 值 。 


就 怀孕 周期 而 言 ， 我 们 观察 了 n=4413 个 第 一 胎 婴 儿 ，m=4735 个 非 第 一 胎 婴 儿 。 两 组 样本 均 
值 的 差 值 为 5=0.078 周 。 为 了 计算 这 个 效应 的 p 值 ， 将 两 个 分 组 的 数据 合 在 一 起 ， 然 后 随机 将 
这 些 数据 分 成 两 组 ， 一 组 的 样本 数 为 "， 另 一 组 为 m， 再 计算 这 两 个 分 组 的 均值 的 差 。 


这 是 重 抽样 (resampling) 的 一 个 例子 ， 因 为 我 们 是 从 一 个 分 布 的 样本 数据 里 面 重新 随机 地 抽 
取样 本 。 我 们 随机 产生 了 1000 次 这 样 的 过 程 ， 这 些 差 值 的 分 布 如 图 7-1 所 示 。 
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图 7-1 重 抽样 数据 均值 差异 的 CDF 


从 图 中 我 们 发 现 差 值 的 平均 值 很 靠近 0， 这 跟 我 们 的 原 假 设 是 一 致 的 。 图 中 的 两 条 竖 线 表示 两 
个 阅 值 (cutoff) ， 这 里 选择 了 x=-5 和 X=5。 


在 这 1000 个 差 值 里 面 ， 我 们 发 现 有 166 个 值 的 绝对 值 大 于 等 于 5， 所 以 这 里 的 p 值 约 为 0.166。 
换 句 话说 ， 在 两 个 分 组 的 怀孕 周期 没有 差别 的 原 假设 下 ， 出 现 这 种 效应 的 概率 大 约 为 17%。 


这 样 的 效应 在 一 次 试验 中 是 不 大 可 能 出 现 的 ， 但 是 这 个 概率 是 否 足够 小 呢 ? 我 们 将 在 下 一 节 
讨论 这 个 问题 。 
习题 7-1 


在 NSFG 的 数据 集中 ， 第 一 胎 婴 儿 的 平均 体重 与 非 第 一 胎 婴 儿 的 平均 体重 的 差异 为 2.0 内 司 。 
请 计算 这 个 差异 的 p 值 。 
提示 : 这 里 的 重 抽 样 应 该 用 的 是 有 放 回 抽样 。 因 此 应 该 使 用 random.choice， 而 不 是 


random.sample (参见 3.8 节 ) 。 


你 可 以 借鉴 本 节 中 我 用 来 生成 结果 的 代码 ， 下 载 代码 请 访问 
http://thinkstats.com/hypothesis.py。 


7.2 阅 值 的 选择 


在 假设 检验 中 ， 我 们 必须 注意 两 种 类 型 的 错误 。 


。 | 类 错误 (type | error) ， 也 称 假 阳 性 (false positive) ， 指 的 是 我 们 接受 了 一 个 本 质 为 假 
的 假设 。 也 就 是 说 ， 我 们 认为 某 个 效应 具有 统计 显著 性 ， 但 实际 上 该 效应 却 是 由 偶然 因 
素 产生 的 。 

。 | 类 错误 (type l| error) ， 也 称 假 阴 性 (false negative) ， 指 的 是 我 们 推翻 了 一 个 本 质 为 
真 的 假设 。 也 就 是 说 我 们 将 某 个 效应 归结 为 随机 产生 的 ， 但 实际 上 真实 存在 。 


假设 检验 中 最 常用 的 方法 是 为 p 值 选择 一 个 阔 值 【1] a， 一 旦 p 值 小 于 这 个 阐 值 ， 我 们 就 推翻 
原 假 设 。 通 常情 况 下 我 们 选择 5% 为 闪 值 。 在 这 个 标准 下 ， 第 一 胎 和 非 第 一 胎 婴 儿 怀 孕 周 期 的 
异 就 不 具备 统计 显著 性 了 ， 但 是 在 出 生体 重 上 的 差异 就 具有 显著 性 。 





[1] 又 称 为 显著 性 准则 (significance criterion) 。 
对 于 这 类 假设 检验 ， 我 们 可 以 得 到 出 现 假 阳 性 的 精确 概率 ， 这 个 概率 就 是 a 值 。 
我 们 解释 一 下 原因 ， 首 先 回 顾 假 阳 性 和 p 值 的 定义 : 假 阳 性 是 指 接受 了 一 个 不 成 立 的 假设 ，p 
值 是 指 假设 不 成 立时 出 现 测量 效应 的 概率 。 
两 者 结合 起 来 ， 我 们 的 问题 是 : 如 果 选 择 a 为 显著 性 冰 值 ， 当 假设 不 成 立时 ， 出 现 该 测量 效应 
的 概率 会 是 多 少 呢 ? 答案 就 是 a。 
我 们 可 以 通过 降低 阀 值 来 控制 假 阳 性 。 例 如 如 果 我 们 设置 闪 值 为 1%， 那 么 出 现 假 阳性 的 概率 
就 等 于 1%。 
但 是 降低 假 阳 性 也 是 有 代价 的 。 六 值 的 降低 会 导致 判断 效应 确实 存在 的 标准 提高 ， 这 样 推翻 
有 效 假设 的 可 能 性 就 变 大 ， 即 我 们 更 有 可 能 接受 原 假设 。 
一 般 说 来 ，| 类 错误 和 | 类 错误 之 间 存 在 一 种 权衡 ， 同 时 降低 这 两 种 错误 的 唯一 方法 是 增加 样本 
数量 (或 者 ， 在 某 些 情况 下 降低 测量 误差 ) 。 


习题 7-2 


为 了 研究 样本 数量 对 p 值 的 影响 ， 请 读者 试 着 去 掉 一 半 NSFG 的 数据 ， 再 计算 一 下 p 值 ， 并 比较 
结果 。 如 果 去 掉 3/4 的 数据 呢 ? 提示 : 使 用 radom.sample。 


最 少 需 要 多 少 样本 量 才能 保证 差异 有 5% 的 显著 性 ? 如 果 要 求 有 1% 的 显著 性 ， 又 需要 多 少 样 
? 


讨 


读者 可 以 从 http:Wthinkstats.com/hypothesis.py 下 载 到 本 节 所 用 到 的 代码 。 


7.3 效应 的 定义 


当 人 们 看 到 不 寻常 的 事情 发 生 时 通常 会 感到 稀奇 ， 并 问 : "出现 这 种 情况 的 可 能 性 有 多 大 

呢 ? "这 是 因为 人 们 在 直觉 上 认为 不 大 可 能 发 生 的 事情 会 很 少 发 生 。 但 这 种 直觉 并 不 总 是 能 经 
得 住 推 喜 。 

例如 ， 假 设 我 抛 10 次 硬币 ， 每 抛 一 次 我 都 特 结果 记录 下 来 ， 用 H 表 示 正 面 朝 上 ， 用 T 表 示 反 面 


朝 上 。 如 果 得 到 的 结果 是 THHTHTTTHH， 或 许 大 家 不 会 觉得 惊讶 。 但 是 如 果 结 果 是 
HHHHHHHHHH， 人 们 可 能 会 问 : “这 种 可 能 性 有 多 大 呢 ?” 


在 这 个 例子 中 ， 两 个 结果 序列 相同 的 概率 为 111024。 同 样 地 ， 任 意 两 个 结果 序列 相同 的 概率 
也 是 111024。 所 以 当 我 们 问 “ 出 现 这 种 情况 的 可 能 性 有 多 大 ”的 时 候 ， 必 须 明 确 “ 这 种 情况 "具体 


是 什么 。 


在 NSFG 数 据 中 ， 我 们 将 效应 定义 为 “两 个 分 组 的 均值 差 (不 分 正 负 ) 大 于 等 于 5”。 给 定 这 个 
定义 之 后 ， 我 们 只 关注 这 个 差 值 绝对 值 的 大 小 ， 而 不 再 关注 它 是 正 数 还 是 负数 。 


上 述 类 型 的 检验 称 为 双边 检验 (two-side test) ， 我 们 考虑 了 图 7-1 中 分 布 的 两 边 的 情况 ( 正 
的 和 负 的 ) 。 在 这 里 ， 双 边 检 验 的 假设 是 两 个 分 布 的 平均 值 有 显著 差别 ， 而 不 关注 相对 大 


小 


Le] 


与 双边 检验 对 应 的 是 单 边 检验 (one-side test) 。 单 边 检验 关注 的 是 第 一 胎 婴 儿 数 据 的 均值 
是 否 显著 高 于 非 第 一 胎 婴 儿 数 据 的 均值 。 因 为 单 边 检验 的 假设 更 具有 特异 性 ， 所 以 单 边 检 验 
的 p 值 会 比较 低 ， 在 这 里 大 约 是 双边 检验 p 值 的 一 半 。 


7.4 解释 统计 检验 结 


本 章 开 头 ， 我 们 提 到 了 一 个 问题 : 如 何 确定 观测 到 的 表 观 效应 是 否 真实 存在 ?我 们 是 这 样 来 
义理 的 。 首 先 ， 定 义 原 假设 (效应 不 存在 ) 为 H0 ; 然后 定义 p 值 为 P(EIH0)， 这 里 的 E 表 示 的 
是 与 表 观 效应 相符 以 及 比 表 观 效应 更 显著 的 效应 。 最 后 我 们 可 以 计算 得 到 p 值 ， 并 将 其 与 疮 值 
a 作 比较 。 


这 些 步骤 非常 重要 ， 但 是 并 没有 回答 我 们 原来 的 问题 ， 即 这 个 效应 是 否 真实 存在 。 所 以 我 们 
没 检验 的 结果 进行 解释 。 一 般 说 来 有 如 下 的 几 种 解释 。 


。 古典 解释 在 古典 的 假设 检验 中 ， 如 果 p 值 小 于 阔 值 q， 那 么 我 们 可 以 说 效应 在 统计 学 上 是 
显著 的 ， 但 是 不 能 得 到 效应 真实 存在 的 结论 。 这 种 解释 很 着 愤 ， 避 免 提 到 结论 ， 但 无 法 
让 人 满意 。 

实际 解释 在 实际 应 用 中 ， 人 们 并 没有 像 上 述 那 样 正式 地 久 理 假设 检验 。 在 绝 大 多 数 科 学 
杂志 中 ， 研 究 者 之 无 节制 地 报道 p 值 ， 读 者 也 将 它们 作为 表 观 效应 真实 存在 的 证 据 。p 值 
越 低 ， 就 越 能 使 他 们 相信 结论 的 正确 性 。 

贝 叶 斯 统计 解释 实际 上 我 们 想 知道 的 是 PIHAIE)， 这 里 HA 是 与 HO 相 对 的 假设 ， 即 效应 是 
真实 存在 的 。 由 贝 叶 斯 定理 可 得 P(HA|E) = P(E|HA)P(HA)P(E) 这 里 P(HA) 是 在 我 们 观测 
到 这 个 效应 之 前 的 先 验 概率 。P(E|HA) 是 在 HA 成 立 的 条 件 下 观测 到 效应 E 的 概率 。P(E) 是 
在 任意 情况 下 观测 到 效应 E 的 概率 。 效 应 要 么 存在 ， 要 么 不 存在 ， 所 以 这 里 P(E) 可 以 表示 
为 P(E) = P(EIHA)P(HA) + P(E|HO)P(HO) 


例如 ， 我 们 要 计算 NSFG 数 据 中 怀孕 周期 的 P(HA|E)。 已 经 知道 P(E|H0)=0.166， 所 以 接 下 来 
要 做 的 就 是 计算 P(E|HA)， 并 为 HA 选择 一 个 先 验 概率 。 


为 了 计算 P(E|HA)， 我 们 假设 效应 是 真实 存在 的 ， 且 两 个 分 组 均值 的 差 (等 于 0.078) 反映 的 
是 真实 的 效应 。 (这 样 的 处 理 实际 上 并 不 严谨 ， 下 一 节 会 解释 如 何 解 决 这 个 问题 。) 
在 两 个 分 组 中 单独 地 抽取 样品 ， 构 建 每 个 分 组 的 分 布 。 重 复 1000 次 这 样 的 试验 ， 我 们 得 到 
P(EIHA) 的 估计 为 0.494。 假 设 P(HA) 的 先 验 概率 为 0.5， 得 到 HA 的 后 验 概率 为 0.748。 


因此 ， 若 P(HA) 的 先 验 概率 为 50%， 用 观测 到 的 证 据 更 新 之 后 得 到 的 后 验 概率 接近 75%。 后 验 
概率 高 于 先 验 概率 ， 这 个 结果 是 有 意义 的 ， 因 为 这 表明 了 观测 到 的 数据 在 一 定 程度 上 支持 了 
HA。 不 过 这 个 结果 看 起 来 多 少 有 点 使 人 惊讶 ， 先 验 概率 和 后 验 概率 会 差别 这 么 大 ， 而 且 还 是 
在 两 个 分 组 均值 差异 并 不 具 各 统计 显著 性 的 情况 下 。 


实际 上 ， 这 一 节 中 所 用 的 方法 并 不 严 递 ， 上 述 方 法 倾向 于 夸大 了 观测 到 的 差异 的 影响 。 下 一 
节 我 们 修正 这 一 倾向 。 


习题 7-3 


在 NSFG 的 数据 中 ， 第 一 胎 婴 儿 体重 的 分 布 与 非 第 一 胎 婴 儿 体 重 的 分 布 不 同 的 后 验 概率 是 多 


少 ? 


读者 可 以 从 http:Wthinkstats.com/hypothesis.py 下 载 本 节 用 到 的 代码 。 


7.5 交叉 验证 


在 前 一 个 例子 中 ， 我 们 使 用 数据 集 来 构建 HA， 然 后 再 用 同一 个 数据 集 进行 检验 。 这 并 不 是 一 
个 好 方法 ， 很 容易 产生 错误 结果 。 


这 里 会 出 现 的 问题 是 : 即使 原 假设 是 真 的 ， 也 可 能 因为 随机 抽 祥 的 缘故 而 导致 两 个 分 组 的 均 
值 有 差别 〈5) 。 如 果 直 接 用 这 个 差别 计算 HA， 然 后 再 用 同样 的 数据 来 计算 P(IHAIE)， 那 么 即 
使 HA 为 假 ， 也 会 得 到 一 个 很 高 的 PUIHAIE)。 


可 以 用 交叉 验证 (cross-validation) 的 方法 来 解决 这 个 问题 : 用 一 批 数 据 来 计算 5， 然 后 再 用 
另 一 批 数 据 来 计算 P(HAIE)。 第 一 批 数 据 称 为 训练 集 (training set) ， 第 二 批 数 据 称 为 测试 集 
( testing set) 。 


在 像 NSFG 这 类 包含 不 同 周期 不 同人 群 的 研究 中 ， 可 以 利用 一 个 周期 的 数据 做 训练 集 ， 然 后 用 
另 一 个 周期 的 数据 做 测试 集 。 或 者 也 可 以 随机 地 将 数据 分 成 两 部 分 ， 一 部 分 是 训练 集 ， 另 一 
部 分 是 测试 集 。 

我 们 按 第 二 种 方法 将 第 6 周期 收集 到 的 数据 随机 地 分 成 两 部 分 。 重 复数 次 之 后 ， 得 到 的 
P(HA|E) 的 平均 值 是 0.621。 跟 预期 一 致 ， 观 测 到 的 差异 对 检验 的 影响 变 小 了 。 一 方面 是 因为 
我 们 所 用 的 样本 量变 小 了 ， 另 一 方面 则 是 训练 集 和 测试 集 已 经 不 是 同一 批 数 据 了 。 


7.6 报道 贝 叶 斯 概率 的 结 


在 上 一 节 中 ， 我 们 选择 0.5 作 为 P(HA) 的 先 验 概率 。 对 于 一 组 假设 ， 假 如 我 们 认为 它们 的 可 能 
性 都 是 一 样 的 ， 即 没有 哪个 假设 比 其 他 假设 更 可 能 是 真 的 ， 那 么 通常 我 们 会 指定 同一 个 先 验 
概率 。 

贝 叶 斯 概率 依赖 于 先 验 概率 的 指定 ， 而 人 们 在 这 个 问题 上 往往 很 难 达成 一 致 ， 一 些 人 因此 对 


贝 叶 斯 概率 持 反 对 态度 。 对 那些 坚持 认为 科学 结果 应 是 具有 客观 性 和 普通 性 的 人 来 说 ， 贝 叶 
斯 概率 的 这 种 性 质 是 他 们 无 法 接受 的 。 


针对 反对 观点 ， 下 面 是 一 种 解释 : 在 实际 应 用 中 ， 强 有 力 的 证 据 会 降低 先 验 概率 的 影响 ， 所 
以 即使 人 们 初始 指定 的 概率 不 同 ， 最 终 的 后 验 概率 会 倾向 于 收 黎 。 


另 一 种 报道 贝 叶 斯 概率 的 方法 是 只 报道 似 然 比 〈likelyhood ratio) P(EIHA)P(EIH0)， 而 不 再 
关注 后 验 概 率 。 这 样 ， 人 们 就 可 以 依据 自己 的 观点 来 设置 先 验 概 率 和 计算 后 验 概率 。 似 然 比 
有 时 也 称 为 贝 叶 斯 因子 (Bayes factor， 参 考 http://wikipedia.org/wiki/Bayes_factor) 。 


习题 7-4 

假设 HA 的 先 验 概率 为 0.3， 之 后 我 们 观测 到 了 新 的 证 据 E， 并 知道 此 时 似 然 比 P(E|HA)/P(E|H0) 
为 3， 那 么 这 种 情况 下 HA 的 后 验 概率 是 多 少 ? 

习题 7-5 

下 面 的 例子 来 自 MacKay 的 Information Theory, Inference, and Learning Algorithms : 


有 两 个 人 在 犯罪 现场 留 下 了 血样 。 奥 利 弗 是 其 中 的 一 个 嫌疑 犯 ， 他 的 血型 为 O 型 。 犯 罪 现 
场 的 两 份 血液 组 织 分 别 是 O 型 和 AB 型 ， 前 者 在 当地 人 群 中 有 广泛 分 布 ，60% 的 人 是 这 种 
血型 ， 后 者 只 有 1%。 那 么 这 些 证 据 ( 即 留 在 犯罪 现场 的 血样 ) 是 否 会 增加 我 们 对 奥利弗 
是 嫌疑 犯 的 怀疑 ? 





提示 : 计算 证 据 的 似 然 比 ， 如 果 大 于 1 就 说 明证 据 支 持 对 奥利弗 的 怀疑 。 读 者 可 从 MacKay 一 
书 的 第 55 页 找到 问题 的 答案 和 解释 。 


7.7 卡 方 检验 


7.2 节 中 我 们 得 出 了 以 下 结论 : 第 一 胎 婴 儿 的 平均 怀孕 周期 与 非 第 一 胎 婴 儿 的 平均 怀孕 周期 的 
差别 不 具备 统计 显著 性 。 但 在 2.10 节 我 们 计算 相对 风险 时 ， 发 现 第 一 胎 婴 儿 倾 向 于 更 早 或 者 
更 晚 出 生 ， 而 较 少 准时 出 生 。 


综 上 ， 或 许 这 两 个 分 布 有 相同 的 均值 ， 但 却 有 不 同 的 方差 。 我 们 本 来 应 该 检验 方差 的 差异 是 
否 具有 显著 性 ， 但 方差 相对 均值 而 言 鲁 棒 性 较 差 ， 针 对 方差 的 统计 检验 通常 表现 较 差 。 


这 里 我 们 采取 的 方法 是 直接 检验 这 种 趋势 是 否 具有 统计 学 意义 上 的 差别 ， 即 第 一 胎 婴 儿 倾向 
于 更 早 或 者 更 晚 出 生 而 较 少 准时 出 生 ， 这 种 差异 具有 统计 学 意义 。 


我 们 分 五 步 来 完成 这 个 检验 。 


1， 按 2.10 节 中 的 标准 把 数据 按 怀孕 周期 分 成 三 个 分 组 (提前 出 生 、 准 时 出 生 和 延 后 出 
生 ) 。 因 为 我 们 有 两 组 数据 ， 所 以 总 共有 6 个 单元 格 (cell) 。 

2.， 计算 每 个 单元 格 期 望 出 现 的 数字 。 在 原 假设 下 两 个 分 组 是 相同 的 ， 所 以 我 们 将 两 组 数据 
混在 一 起 ， 来 估计 P( 提 前 出 生 )、P( 准 时 出 生 ) 和 P( 延 后 出 生 )。 我 们 有 n=4413 个 第 一 胎 婴 
儿 的 数据 ， 在 原 假设 下 ， 我 们 期 望 会 有 nP( 提 前 出 生 ) 个 婴儿 提前 出 生 ，nP( 准 时 出 生 ) 个 婴 
儿 准 时 出 生 ， 等 等 。 同 样 地 ， 对 m=4735 个 非 第 一 胎 婴 儿 样 本 ， 我 们 可 以 计算 出 每 个 单元 
格 的 期 望 数值 。 

3.， 对 每 个 单元 格 ， 计 算 观 测 到 的 数值 (O;) 与 期 望 数值 (EB;) 的 离 差 ， 即 0; 一 EB;。 

4. 计算 某 种 形式 的 离 差 和 ， 将 这 个 量 称 为 检验 的 统计 量 。 通 常 我 们 会 选择 卡 方 统计 量 : 


2 二 > (OE) 
5， 利 用 蒙特 卡 罗 模 拟 来 计算 p 值 ， 这 个 p 值 表示 的 是 在 原 假设 下 出 现 比 观测 值 ( 即 我 们 在 第 4 
步 中 计算 得 到 的 统计 量 的 值 ) 更 高 的 卡 方 统计 量 的 概率 。 
当 检 验 中 用 到 的 统计 量 是 卡 方 统计 量 时 ， 我 们 称 该 统计 检验 为 卡 方 检验 (chi-square test) 。 
卡 方 统计 量 服从 卡 方 分 布 ， 据 此 我 们 可 直接 计算 出 统计 检验 的 p 值 。 


在 NSFG 的 数据 中 ， 我 们 计算 得 到 ?= 91.64, p 值 小 于 0.0001。 这 样 我 们 可 以 认为 该 结果 具有 
统计 显著 性 。 需 要 注意 到 的 一 点 是 : 我 们 仍然 在 用 同一 批 数 据 进行 检验 ， 最 好 能 在 另 一 批 数 
据 上 验证 一 下 我 们 的 结果 。 


读者 可 以 从 http:Wthinkstats.com/chi.py 下 载 到 本 节 所 用 的 代码 。 


习题 7-6 


假设 你 是 一 家 赌场 的 老板 ， 你 怀疑 有 个 财 客 对 骨 子 做 了 手脚 。 你 已 经 将 赌 客 抓 了 起 来 并 且 没 
收 了 他 的 般 子 。 现 在 你 必须 证 明 他 的 般 子 是 有 问题 的 。 


你 拖 了 60 次 般 子 ， 记 录 结 果 如 下 所 示 : 


ve ee 
频数 8 9 1968 10 


用 上 述 结果 计算 的 卡 方 统计 量 等 于 多 少 ? 在 人 般 子 没有 问题 的 情况 下 ， 卡 方 统计 量 比 这 个 值 更 
大 的 可 能 性 是 多 少 ? 


王 ” 大 ~ 
7.8 高 效 册 抽样 
如 果 读 者 之 前 学 习 过 概率 统计 的 知识 ， 在 看 到 图 7-1 时 或 许 会 觉得 有 点 儿 不 层 一 顾 ， 因 为 我 们 
花费 了 大 量 计算 机 资源 去 模拟 一 些 本 可 以 用 很 简单 的 理论 分 析 就 能 得 到 的 结果 。 


很 显然 ， 本 书 并 没有 把 重心 放 在 数学 分 析 上 面 。 我 们 更 愿意 通过 计算 机 用 一 些 貌 似 “ 恩 蠢 ” 的 方 
法 来 讲述 本 书 的 内 容 ， 这 样 可 能 更 容易 让 初学 者 明白 这 里 的 意义 ， 也 更 容易 让 他 们 上 手 。 所 
以 只 要 我 们 的 模拟 不 需要 耗费 很 长 时 间 ， 这 种 方式 没有 什么 不 妥 。 


但 有 时 候 ， 只 需 进 行 一 些 简单 的 分 析 就 可 以 节省 大 量 的 计算 ， 图 7-1 就 是 这 样 的 一 个 例子 。 


我 们 之 前 是 将 两 个 分 组 的 怀孕 周期 混在 一 起 ， 然 后 再 按 原来 每 组 的 个 数 重新 随机 将 数据 分 成 
两 组 ， 之 后 计算 两 个 分 组 均值 的 差异 。 重 复 这 样 的 过 程 ， 用 这 些 数据 构建 分 布 。 


这 里 ， 我 们 可 以 通过 分 析 的 方法 直接 计算 均值 差 值 的 分 布 。 假 设 怀 孕 周 期 服从 一 个 分 布 ， 均 
值 为 H， 方 差 为 02。 我 们 从 这 个 分 布 随机 抽取 n 个 样本 ， 那 么 根据 中 心 极限 定理 ， 样 本 的 和 浙 


进 服 从 AN(ny,no?) 为 了 得 到 样本 均值 的 分 布 ， 这 里 需要 用 到 正 态 分 布 的 一 个 性 质 : 若 X 服 从 
正太 分布 N(1,o?)， 那 么 


aX +b~N(ant+b,ao’) 


设 a=1/n，b=0， 等 式 两 边 同 除 以 n 则 


所 以 样本 均值 渐进 服从 M(i 气 )。 


为 了 得 到 样本 均值 差 值 的 分 布 ， 我 们 需要 用 到 正 态 分 布 的 另 一 个 性 质 : 若 和 服从 M(A ci)， 
服从 N(12, 03)， 那 么 


aXi+ bX2 ~ N(ani + bu2,aso? + bo2) 
这 种 情况 下 有 : 
X1— X2~ Np — p201 + 03) 


综 上 ， 可 知 图 7-1 的 分 布 服从 N(0, fo?)， 这 里 f = 十 去 。 将 n=4413 和 m=4735 代 入 公式 ， 得 
到 最 近 的 分 布 为 NM(0, 0.0032)。 


我 们 用 erf.NormalCdf 来 计算 均值 差 值 的 p 值 : 


delta = 90.078 

sigma = math.sqrt(0.0032) 

left = erf.Normalcdf(-delta, 0.0, sigma) 
right = 1 - erf.Normalcdf(delta, 0.0, sigma) 


计算 得 到 的 双边 检验 的 p 值 为 0.168， 非 常 接 近 我 们 用 重 抽 样 的 方法 计算 得 到 的 结果 0.166。 


读者 可 从 http://thinkstats.com/hypothesis_analytic.py 下 载 本 节 所 用 到 的 代码 。 


本 
7.9 功效 
当 检 验 的 结果 为 阴性 时 ( 即 检验 结果 不 具备 统计 显著 性 ) ， 我 们 是 不 是 就 可 以 认为 所 要 检验 
的 效应 不 存在 呢 ? 这 其 实 还 依赖 于 所 用 的 统计 检验 的 功效 。 


统计 功效 (statistical power) 指 的 是 在 原 假 设 为 假 的 情况 下 ， 检 验 的 结果 为 阳性 的 概率 。 一 
般 地 ， 一 个 统计 检验 的 功效 依赖 于 样本 数量 、 效 应 的 大 小 和 我 们 设置 的 疮 值 a。 


习题 7-7 

7.2 节 中 ， 在 a=0.05 并 假设 两 个 分 组 真实 的 差异 等 于 0.078 周 的 情况 下 ， 这 个 检验 的 功效 是 多 
少 ? 如 果 a=0.1 呢 ? 

可 以 通过 从 两 个 分 布 中 生成 随机 样本 (满足 均值 差异 为 0.078) 来 估计 功效 : 对 这 些 数据 进行 
检验 ， 阳 性 结果 比例 就 是 这 种 检验 的 功效 。 

当 检 验 结 果 为 阴性 时 ， 一 种 报道 检验 统计 功效 的 方式 是 : 如 果 出 现 的 效应 为 x， 那 么 这 种 检验 
推翻 原 假设 的 概率 为 p( 即 功效 ) 。 


7.10 术语 


。 单元 格 (cell) 在 卡 方 检验 中 ， 将 观测 按 一 定 的 标准 分 到 各 个 单元 格 里 ， 每 个 单元 格 代 
表 一 种 分 类 。 

。 卡 方 检验 (chi-square test) 用 卡 方 统计 量 做 统计 量 的 统计 检验 。 

。 交叉 验证 (cross-validation) 交叉 验证 使 用 一 个 数据 集 进 行 探 索性 数据 分 析 ， 然 后 用 
另 一 个 数据 集 进行 测试 。 

。 假 阴性 (false negative) 在 效应 真实 存在 的 情况 下 ， 我 们 认为 这 个 效应 是 由 偶然 因素 引 
起 的 。 

。 假 阳 性 (false positive) 在 原 假 设 为 真 的 情况 下 ， 我 们 拒绝 了 原 假设 的 结论 。 

。 假设 检验 (hypothesis testing) 判定 出 现 的 效应 是 否 具 有 统计 显著 性 的 过 程 。 

。 似 然 比 (likelihood ratio) 一 种 概率 的 比值 ， P(E|A)/P(EIB)， 这 里 A 和 B 是 两 种 假设 。 
似 然 比 不 依赖 于 先 验 概率 ， 可 以 用 来 报道 贝 叶 斯 统计 推断 的 结果 。 

。 原 假设 (null hypothesis) 一 种 基于 以 下 假设 的 模型 系统 : 我 们 观测 到 的 效应 只 是 由 偶 
然 因素 引起 的 。 

。 单 边 检验 (one-sided test) 一 种 检验 类 型 ， 关 注 的 是 出 现 比 观测 到 的 效应 更 大 (或 
小 ) 的 效应 的 概率 。 

。p 值 (p-value) 在 原 假设 成 立 的 情况 下 ， 出 现 我 们 观测 到 的 效应 的 概率 。 

。 功效 (power) 在 原 假设 为 假 的 情况 下 ， 检 验 推翻 原 假设 的 概率 。 

。 显著 性 (significant) 我 们 说 某 个 效应 具有 统计 显著 性 指 的 是 这 种 情况 不 大 可 能 是 由 偶 
然 因素 引起 的 。 

。 检验 统计 量 (test statistic) 衡量 观测 到 的 效应 与 原 假设 下 期 望 的 结果 之 间 偏 差 的 统计 
量 。 

。 测试 集 (testing set) 用 做 测试 的 数据 集 。 

。 训练 集 (training set) 用 做 训练 的 数据 集 。 

。 双边 检验 (two-sided test) 一 种 检验 类 型 ， 关 注 的 是 出 现 比 观测 到 的 效应 更 大 的 效应 
的 概率 ， 不 考虑 正 负 。 


第 8 章 估计 


8.1 关于 估计 的 游戏 


让 我 们 从 一 个 游戏 开始 。 我 想到 一 个 分 布 ， 然 后 让 你 去 猜 这 个 是 什么 分 布 。 我 们 将 从 简单 的 
情况 出 发 ， 逐 步 开 始 我 们 的 讨论 。 


关于 我 心里 想到 的 那个 分 布 ， 我 会 提示 两 点 : 一 是 这 是 一 个 正 态 分 布 ， 二 是 我 们 有 一 组 从 这 
个 分 布 中 得 到 的 随机 样本 : 


{-0.441, 1.774, -0.101, -1.138, 2.975, -2.138} 

你 认为 这 个 分 布 的 均值 参数 H 会 是 多 少 呢 ? 

一 种 简单 的 方法 是 用 样本 的 均值 去 估计 WU。 到 目前 为 止 ， 我 们 一 直 用 /这 个 符号 表示 样本 均值 
和 分 布 的 均值 。 但 从 现在 开始 ， 我 们 将 区 分 这 两 个 概念 。 我 们 用 元 表示 样本 均值 。 在 这 个 例子 
中 ，z 二 0.155， 所 以 我 们 有 理由 猜测 / = 0.155。 


上 述 过 程 称 为 估计 (estimation) ， 用 来 估计 分 布 参数 的 统计 量 (在 这 里 是 样本 均值 ) 称 为 估 


计量 (estimator) 。 


利用 样本 均值 来 估 值 似乎 无 可 厚 非 ， 我 们 很 难 再 想到 有 什么 比 它 更 好 的 估计 量 了 。 接 下 来 假 
设 我 们 改变 了 游戏 规则 ， 在 随机 样本 中 加 入 一 些 异常 值 。 


现在 游戏 变 成 这 样 : 我 想到 一 个 分 布 ， 然 后 告诉 猜 的 人 这 是 个 正 态 分 布 。 但 是 随机 样本 是 由 
一 个 粗心 的 人 来 抽取 ， 他 有 时 会 把 小 数 点 标 在 错误 的 位 置 ， 于 是 最 终 得 到 了 这 样 的 一 组 数 
据 : 


{-0.441, 1.774, -0.101, -1.138, 2.975, -213.8} 


那么 这 时 对 b 的 估计 应 该 是 多 少 呢 ?假如 我 们 还 是 用 样本 均值 ， 那 么 估计 的 结果 是 -35.12。 这 
是 最 好 的 估计 结果 吗 ? 有 没有 其 他 方法 可 以 用 来 估计 / 呢 ? 


一 种 直观 的 方法 是 先 鉴 定 出 异常 值 并 对 其 进行 修剪 ， 然 后 再 用 剩 下 的 祥 本 的 均值 来 估计 参 
数 。 除 此 之 外 ， 还 有 一 种 方法 是 用 中 位 数 作为 估计 量 ， 而 不 再 用 样本 均值 。 


选择 哪 一 种 方法 要 视 具 体 情况 〈 例 如 ， 是 否 存在 异常 值 ) 和 估计 的 目的 而 定 ， 是 要 让 误差 最 
小 ， 还 是 要 让 得 出 正确 答案 的 可 能 性 最 大 ? 


假设 不 存在 异常 值 ， 那 么 样本 均值 会 最 小 化 均 方 误差 (Mean Squared Error，MSE) 。 假 设 
我 们 多 次 进行 这 个 游戏 ， 每 次 游戏 结束 后 计算 z 一 上 ， 样 本 均值 会 使 得 下 式 达 到 最 小 值 : 


MSB = D(z 


这 里 ，m 表 示 的 是 游戏 进行 的 次 数 《这 里 不 要 同 n 混 淆 了 ，n 表 示 的 是 每 次 游戏 中 得 到 的 样本 
的 数量 ) 。 


用 样本 均值 估计 能 最 小 化 均 方 误差 ， 这 是 一 个 非常 好 的 性 质 ， 但 它 并 不 总 是 最 优 策 略 。 例 
如 : 假设 我 们 正在 评估 一 个 建筑 工地 的 风速 分 布 ， 如 果 估 计 得 太 高 ， 我 们 可 能 会 建造 过 多 的 
结构 ， 导 致 成 本 增加 ; 但 如 果 估 计 得 过 低 ， 大 楼 可 能 会 倒塌 。 这 时 误差 的 损失 画 数 并 不 是 对 
称 的 ， 最 小 化 均 方 误差 就 不 是 最 优 策略 了 。 


另 一 个 例子 ， 假 设 我 括 了 三 次 六 面 般 子 然后 问 你 三 次 得 到 的 点 数 总 和 是 多 少 ， 如 果 你 猜 对 了 
会 得 到 一 个 奖品 ， 猜 错 了 则 什么 也 没有 。 这 种 情况 下 ， 如 果 我 们 要 让 均 方 误差 最 小 ， 得 到 的 
结果 是 10.5， 显 然 这 是 个 糟糕 的 数字 。 这 里 ， 你 需要 的 是 一 个 能 使 得 你 有 最 大 的 概率 猜 对 的 
估计 ， 也 即 极 大 似 然 估 计 值 (Maximum Likelihood Estimator，MLE) 。 如 果 你 选择 10 或 11， 
那么 你 冯 有 1/8 的 机 会 猜 对 ， 这 个 才 是 你 的 最 优选 择 。 


习题 8-1 
编写 一 个 函数 ， 从 一 个 均值 为 0、 方 差 为 1 的 正 态 分 布 中 产生 6 个 随机 数 ， 利 用 这 些 随 机 数 估计 
均值 ， 并 计算 误差 3 一 J。 运行 1000 次 这 个 图 数 ， 计 算 均 方 误差 。 


接 下 来 修改 一 下 画 数 ， 改 为 用 中 位 数 作为 均值 的 估计 ， 再 计算 此 时 估计 的 均 方 误差 。 请 读者 
试 着 比较 这 两 种 估计 的 差别 。 


8.2 方 震 估计 


我 们 依然 从 上 一 节 那 个 游戏 出 发 ， 现 在 我 想到 的 是 个 正 态 分 布 ， 也 得 到 了 一 批 样本 : 
{-0.441, 1.774, -0.101, -1.138, 2.975, -2.138} 

那么 这 个 分 布 的 方差 是 多 少 ? 同样 地 ， 直 观 的 想法 是 用 祥 本 方差 来 估计 分 布 的 方差 。 我 们 用 
5° 来 表示 样本 方差 ， 并 将 其 同 分 布 方差 ?区 分 开 。 


9 = 


在 样本 数量 足够 多 的 情况 下 ，5? 是 一 个 很 好 的 估计 量 ; 但 是 如 果 样 本 数量 很 少 ， 那 么 52 会 低 
估 o?。 因 为 这 个 不 幸 的 性 质 ，S2 只 是 o2? 的 一 个 有 偏 估 计 。 

如 果 在 进行 很 多 次 游戏 之 后 ， 我 们 发 现 估 计量 与 真实 参数 的 误差 的 平均 值 为 0， 那 么 我 们 就 称 
这 个 估计 量 是 无 偏 的 (unbiased) 。o? 的 一 个 无 偏 估计 S52_1 是 : 


a 和 — 2)° 
这 里 有 个 麻烦 是 “样本 均值 "可 以 是 52, 也 可 以 是 52_ |， 并 没有 区 分 ， 有 时 会 带 来 混乱 。 


http://wikipedia.org/wiki/Bias_of_an_estimator 解 释 了 为 什么 S2 是 有 偏 的 ， 同 时 证 明了 52_1 的 
无 偏 性 。 


习题 8-2 

编写 一 个 图 数 ， 从 一 个 均值 为 0、 方 差 为 1 的 正 态 分 布 中 产生 6 个 随机 数 ， 利 用 样本 方差 去 估计 
o2?， 并 计算 估计 误差 $2 - o2。 运 行 这 个 辑 数 1000 次 ， 计 算 平均 的 误差 (这 里 没有 对 误差 进行 
平方 ) 。 


接 下 来 修改 一 下 函数 ， 用 无 偏 估计 量 52_1 来 估计 方差 ， 并 计算 估计 的 平均 误差 。 当 模拟 次 数 
增加 ， 估 计 的 平均 误差 是 否 收 伍 到 0 ? 


8.3 误差 


在 继续 讨论 之 前 ， 我 们 需要 理 清 一 些 概 念 。 均 方差 和 有 偏 性 都 是 长 期 概念 ， 是 在 多 次 进行 试 
验 后 得 到 的 结果 。 

在 进行 游戏 的 过 程 中 ， 我 们 不 可 能 知道 估计 的 误差 。 假 设 我 只 给 你 一 个 样本 数据 ， 然 后 让 你 
来 估计 分 布 的 参数 。 参 数 可 以 估计 出 来 ， 误 差 却 无 从 得 知 。 如 果 你 能 知道 误差 是 多 少 ， 那 么 
我 们 实际 上 就 不 用 这 个 估计 量 了 。 


这 里 讨论 估计 误差 是 为 了 描述 不 同 的 估计 量 在 多 次 试验 下 的 表现 。 本 章 的 目的 也 是 通过 一 系 
列 的 试验 来 检验 这 些 表现 。 由 于 我 们 的 试验 是 人 工 设置 的 ， 所 有 的 参数 都 是 已 知 的 ， 所 以 我 
们 可 以 计算 出 误差 。 但 在 实际 的 数据 中 ， 我 们 并 不 知道 参数 的 真实 情况 ， 所 以 无 法 得 到 误差 
值 。 


接 下 来 回 到 我 们 的 讨论 。 


8.4 指数 分 布 


还 是 那个 游戏 ， 但 现在 我 想到 的 是 指数 分 布 ， 并 且 得 到 了 一 组 样本 : 
{5.384, 4.493, 19.198, 2.790, 6.122, 12.844} 


那么 这 里 指数 分 布 的 参数 和 会 是 多 少 呢 ? 
因为 指数 分 布 的 均值 为 ， 所 以 根据 之 前 的 处 理 ， 我 们 会 选择 如 下 的 估计 量 来 估计 入 : 


入 一 


S| 一 


一 般 情况 下 ， 我 们 给 待 估 的 参数 上 加 一 个 帽子 ， 以 此 来 表示 这 个 参数 的 估计 量 。 这 里 和 不 仅 是 


和 的 估计 量 而 且 还 是 它 的 极 大 似 然 估 计量 ， 【1] 所 以 如 果 我 们 想 要 有 最 大 的 可 能 性 猜 对 入 ， 入 
是 最 好 的 选择 。 


[1] 参见 http://wikipedia.org/wiki/Exponential_distribution#Maximum_likelihood。 


但 是 我 们 出 现 异常 值 时 ，z 的 鲁 棒 性 不 好 ， 所 以 A 也 会 面临 同样 的 问题 。 


这 里 可 以 用 另 一 种 基于 中 位 数 的 方法 来 估计 入 。 我 们 知道 指数 分 布 的 中 位 数 等 于 10g(2)/ 和 ， 于 
是 根据 前 面 的 做 法 ， 定 义 和 的 估计 量 为 : 


4 log(2 
Ae 


H1/2 


这 里 J/s 表 示 的 是 样本 的 中 位 数 。 


习题 8-3 


局 


请 通过 模拟 比较 一 下 和 和 和 1/ 的 均 方 误差 哪个 更 低 ， 并 检查 这 两 个 估计 量 是 否 是 有 偏 的 。 


8.5 置信 区 间 


到 目前 为 止 ， 我 们 学 习 了 用 估计 量 产生 一 个 值 来 估计 参数 ， 这 种 方法 称 为 点 估计 (point 
estimation) 。 在 很 多 问题 中 ， 有 时 我 们 更 希望 知道 一 个 有 上 界 和 下 界 的 区 间 ， 这 个 区 间 能 够 
覆盖 未 知 的 参数 。 


更 一 般 地 ， 我 们 想 知 道 整 个 分 布 的 情况 ， 也 就 是 分 布 参数 所 有 取 值 的 范围 ， 在 此 范围 内 的 每 
一 个 值 ， 以 及 每 个 值 的 可 能 性 。 


我 们 从 置信 区 间 (confidence interval) 这 个 概念 开始 。 
回 到 我 们 之 前 的 游戏 。 我 想到 一 个 指数 分 布 ， 然 后 告诉 你 一 组 样本 : 
{5.384, 4.493, 19.198, 2.790, 6.122, 12.844} 


接 下 来 ， 我 想 让 你 给 我 一 个 范围 ， 这 个 范围 有 很 大 的 可 能 性 覆盖 未 知 参 数 \。 更 具体 地 说 ， 我 
想 要 一 个 90% 的 置信 和 区间， 也 就 是 如 果 我 重复 地 进行 这 个 游戏 ， 平 均 而 言 这 个 区 间 能 90% 包 
合 和 。 


这 样 的 游戏 有 点 太 难 了 ， 所 以 这 里 直接 给 出 了 答案 ， 读 者 可 以 试 着 去 验证 一 下 结果 。 
我 们 通常 以 缺失 率 (miss rate) a 来 描述 置信 区 间 ，90% 的 置信 区 间 对 应 的 a=0.1。 指 数 分 布 
的 参数 的 置信 区 间 为 : 
a X22n,1— $F) 4 X22n, $) 
Te 


) 
这 里 hn 表示 样 本 数量 ， 是 上 一 节 提 到 的 参数 的 均值 估计 。 XX?2(k, x) 是 自由 度 为 k 的 卡 方 分 布 的 
累积 分 布 男 数 在 x 处 的 值 ( 卡 方 分 布 请 人 参 http://wikipedia.org/wiki/Chi-square_distribution) 。 


一 般 说 来 ， 很 难 用 分 析 的 方法 推导 出 参数 的 置信 区 间 ， 但 用 模拟 的 形式 来 估计 它 相 对 容易 很 
多 。 接 下 来 我 们 从 贝 叶 斯 统计 的 角度 来 讨论 参数 的 估计 。 


8.6 贝 叶 斯 估计 


假如 你 收集 了 一 些 样 本 ， 然 后 根据 这 些 样本 计算 出 了 参数 的 90% 的 置信 区 间 ， 这 似乎 意味 着 
参数 有 90% 的 可 能 性 落 在 这 个 区 间 内 。 但 如 果 从 频率 学 派 的 角度 来 看 ， 这 种 观点 是 错误 的 ， 
因为 他 们 认为 虽然 分 布 的 参数 未 知 ， 但 它 是 一 个 固定 的 数字 ， 并 不 是 一 个 随机 变量 ， 参 数 要 
么 在 这 个 区 间 内 ， 要 么 不 在 。 这 样 频 率 学 派 关 于 概率 的 观点 在 这 里 就 不 适用 了 。 


那么 让 我 们 改变 一 下 游戏 的 规则 。 


我 想到 一 个 分 布 : 这 是 一 个 指数 分 布 ， 但 我 是 从 一 个 (0.5, 1.5) 的 均匀 分 布 中 随机 抽 了 一 个 值 
作为 参数 A。 下 面 是 抽样 得 到 的 一 组 样本 ， 我 们 用 X 表 示 : 


{2.675, 0.198, 1.152, 0.787, 2.717, 4.269} 
基于 这 组 样本 ， 你 觉得 和 的 值 会 是 多 少 ? 


在 这 个 版 本 的 游戏 中 ， 和 是 一 个 随机 变量 ， 所 以 我 们 完全 可 以 讨论 它 服从 什么 样 的 分 布 ， 并 且 
使 用 贝 叶 斯 定理 很 容易 就 能 计算 出 结果 。 


下 面 是 计算 步骤 。 
1， 将 (0.5, 1.5) 划 分 成 一 组 长 度 相等 的 小 区 间 。 对 每 个 小 区 间 ， 我 们 定义 假设 Hi 为 : 和 落 在 第 i 
个 区 间 。 因 为 服从 均匀 分 布 ， 所 以 Hi 的 先 验 概率 P(HH;) 对 所 有 的 i 都 是 相等 的 。 


P(X|H:;) = 1; ezpo(Xi,zZj) 【1] 这 里 expo( 入 , x) 表示 的 是 参数 为 的 指数 分 布 在 x 处 的 概 


率 密度 函数 。PDRFeaoo(X,z) = Ae-Y 符 号 [[ 的 意思 请 参 
考 http://wikipedia.org/wiki/Multiplication#Capital_Pi_notation。 


3， 然后 利用 贝 叶 斯 定理 计算 后 验 概率 P( 玉 :|X) = P(H;)P(X| 卫 )/f ,ff 是 一 个 为 一 化 因子 
f= P(H)P(XIH,) 


[1] 这 里 对 五 ;进行 了 离散 化 处 理 ， 我 们 选择 第 i 个 小 区 间 中 的 一 个 值 z; 来 代替 五 ;， 
因为 指数 分 布 的 参数 是 一 个 数 。 这 样 只 要 我 们 划分 的 区 间 数 量 足 够 多 ， 近 似 处 理 后 
的 结果 和 与 用 积分 方式 计算 的 结果 就 很 接近 。 译 者 注 








得 到 了 参数 的 后 验 分 布 后 ， 就 很 容易 计算 置信 区 间 了 。 例 如 ，90% 的 置信 区 间 的 上 下 限 就 可 
以 选择 后 验 分 布 95% 和 5% 的 百 分 位 数 。 


贝 叶 斯 置信 区 间 有 时 又 称 为 可 信 区 间 (credible interval) 。 贝 叶 斯 统计 定义 的 置信 区 间 和 与 频 
率 学 派 定义 的 置信 区 间 之 间 的 差别 请 参考 http://wikipedia.org/wiki/Credible_interval。 


8.7 贝 叶 斯 估计 的 实现 


我 们 可 以 用 Pmf 和 Cdf 等 表示 分 布 的 函数 来 表示 先 验 分 布 ， 但 是 因为 我 们 要 将 假设 映射 为 概 
率 ， 所 以 Pmf 是 更 好 的 选择 。 


Pmf 的 每 一 个 取 值 都 代表 了 一 个 假设 ， 例 如 ，0.5 表 示 假 设 生 0.5。 在 先 验 分 布 中 ， 所 有 假设 的 
概率 相等 。 所 以 我 们 可 以 这 样 构造 先 验 分 布 : 


def MakeUniformSuite(low, high, steps): 
hypos = [low + (high-low) * i / (steps-1.0) for i in range(steps)] 
pmf = Pmf.MakePmfFromList(hypos ) 
return pmf 


这 个 图 数 生 成 了 入 先 验 的 Pmf，Pmf 所 有 取 值 构成 了 我 们 所 有 的 假设 ， 我 们 把 这 个 假设 的 集合 
称 为 一 个 suite。 所 有 假设 有 相同 的 概率 ， 所 以 这 个 Pmf 是 一 个 均匀 分 布 。 


参数 low 和 high 定 义 了 入 取 值 的 范围 ，steps 定 义 了 假设 的 数量 。 
为 了 更 新 所 有 五 ;的 概率 ， 我 们 输入 先 验 Pmf 和 所 有 的 观测 数据 ( 即 所 谓 的 “证 据 ”) 


def Update(suite, evidence): 
for hypo in suite.Values(): 
likelihood = Likelihood(evidence, hypo) 
suite.Mult(hypo, likelihood) 
suite.Normalize() 


对 suite 中 的 每 一 个 假设 ， 将 假设 的 先 验 概率 乘 以 在 这 个 假设 下 的 似 然 值 ， 然 后 再 对 suite 进 行 
轨 一 化 。 


在 这 个 函数 中 ，suite 必 须 是 一 个 Pmf，evidence 数 据 可 以 是 任意 形式 ， 只 要 Likelihood 画 数 能 
够 识别 就 行 。 


Likelihood 画 数 的 定义 为 : 


def Likelihood(evidence, hypo): 
param = hypo 
likelihood = 1 
for x in evidence: 
likelihood *= ExpoPdf(x, param) 
return likelihood 


在 Likelihood 中 ， 我 们 将 evidence 当 成 是 一 组 来 自 指数 分 布 的 样本 ， 它 可 以 计算 上 一 节 的 []。 


ExpoPdf 计 算 指 数 分 布 在 x 处 的 概率 密度 : 


def ExpoPdf(x, param): 
p = param * math.exp(-param * x) 
niet 


将 这 些 代 码 放 在 一 起 ， 我 们 就 可 以 构造 和 先 验 分 布 ， 并 且 计 算 其 后 验 分 布 : 


evidence = [2.675, 0.198, 1.152, 0.787, 2.717, 4.269] 
prior = MakeUniformSuite(0.5, 1.5, 100) 

posterior = prior.Copy() 

Update(posterior, evidence) 


读者 可 以 从 这 里 下 载 本 节 用 到 的 代码 http://thinkstats.com/estimate.py。 


在 考虑 贝 叶 斯 估计 的 时 候 ， 我 会 想象 有 满 满 一 屋子 的 人 在 猜测 一 个 我 想 要 估计 的 值 ， 在 这 个 
例子 里 这 个 值 就 是 \。 起 初 ， 屋 里 的 每 一 个 人 都 对 自己 猜测 的 值 有 一 个 置信 度 〈 即 相信 有 多 大 
的 可 能 性 猜 对 ) 。 


当 观 测 到 新 的 证 据 后 ， 所 有 人 都 根据 P(EIH) 对 自己 的 置信 度 进 行 更 新 ， 这 里 P(EIH) 指 的 是 认 
为 起 初 猜 测 正确 的 假设 下 ，E 的 似 然 值 。 


通常 似 然 画 数 会 计算 出 概率 ， 其 最 大 值 为 1。 因 此 ， 一 开始 每 个 人 的 置信 度 通 常会 下 降 (或 保 
持 不 变 ) ， 但 当 我 们 对 结果 进行 为 一 化 后 ， 每 个 人 的 置信 和 度 又 会 上 升 。 

所 以 ， 上 述 过 程 的 净 效 点 就 是 有 些 人 的 置信 度 上 升 了 ， 有 些 人 的 下 降 了 。 而 这 取决 于 他 们 假 
设 的 相对 似 然 值 。 


8.8 删 失 数据 


下 面 的 问题 来 自 David MacKay 的 Information Theory, Inference and Learning Algorithms 一 书 
的 第 3 章 。 具 体内 容 读者 可 从 这 里 下 
载 http://www.inference.phy.cam.ac.uk/mackay/itprnn/ps/。 


一 个 不 稳定 的 粒子 从 放射 源 射出 ， 粒 子 衰变 的 距离 为 Xx。 理 论 上 ，x 服 从 一 个 参数 为 和 的 指 
数 分 布 。 实 际 中 ， 衰 变 公 能 在 一 个 长 度 从 1 cm 到 20 cm 的 窗口 内 观测 到 。 假 设 我 们 观测 


到 了 n 次 衰变 ， 衰 变 的 位 置 为 {x1,… ,zxN}， 那 么 和 是 多 少 ? 
这 是 一 个 有 王 失 数据 (censored data) 的 估计 问题 ， 即 有 些 数据 被 系统 性 地 排除 在 外 了 。 
贝 叶 斯 估计 一 个 很 大 的 优势 是 它 可 以 相对 容易 地 义理 删 失 数据 。 只 要 稍微 改 一 下 上 一 节 用 到 
的 方法 就 可 以 义理 这 个 例子 中 的 问题 ， 我 们 将 PDFezpo 蔡 换 成 PDFeonda : 


PDRFona(Xz) = Xe /GOA) 


这 里 1<x<20， 其 他 情况 表达 式 的 值 为 0， 并 且 


20 
G(A) = 站 和 Xe dr=e *—e 2 
1 


这 里 的 2( 和 ) 在 习题 6-5 中 出 现 过 。 


习题 8-4 


请 下 载 http://thinkstats.com/estimate.py， 并 将 下 载 文 件 命 名 为 decay.py， 这 个 文件 包含 了 本 
章 前 几 节 所 用 到 的 代码 。 


请 修改 decay.py， 然 后 计算 在 得 到 观测 X={1.5, 2, 3, 4, 5, 12} 后 和 的 后 验 分 布 。 这 里 和 的 先 验 分 
布 可 以 选择 0 到 1.5 之 间 的 均匀 分 布 ( 不 包含 0) 。 


读者 可 以 从 http:Wthinkstats.com/decay.py 下 载 到 问题 的 一 种 解答 。 


习题 8-5 


在 2008 年 明尼苏达 州 的 参议 员 选 举 中 ，Al Franken 得 到 了 1 212 629 张 选票 ，Norm Coleman 
得 到 了 1 212 317 张 选票 。Franken 被 宣布 胜 选 。 但 是 Charles Seife 却 指出 这 次 选举 结果 是 无 
效 的 ， 因 为 票数 差异 的 幅度 远 小 于 误差 的 幅度 ， 所 以 投票 结果 应 该 是 两 位 竞选 人 打 成 平手 。 


假设 在 登记 选票 时 ， 有 可 能 会 漏 记 选票 ， 也 有 可 能 会 将 同一 张 选票 登记 两 次 ， 那 么 Franken 真 
正 赢 得 选举 的 概率 是 多 大 ? 


: 这 里 必须 添加 一 些 细节 来 完成 建 模 过 程 。 


~ | 日 

8.9 火车 头 问题 

火车 头 问题 是 一 个 非常 经 典 的 估计 问题 ， 又 叫 " 德 国 坦克 问题 "”、 下 面 是 Mosteller 在 Fifty 
Challenging Problems in Probability 中 提 到 的 版 本 : 


铁路 公司 将 它 所 有 的 火车 头 都 进行 了 编号 ， 从 1 到 N。 有 一 天 你 看 见 一 个 编号 为 60 的 火车 
头 ， 那 该 铁路 公司 总 共有 多 少 火 车 头 呢 ? 


在 接着 往 下 讨论 之 前 ， 我 们 先 想 想 如 下 问题 。 


1， 对 于 一 个 给 定 的 估计 入 ， 观 测 的 似 然 函数 是 什么 ? 极 大 似 然 估计 量 是 什么 ? 


2， 假 如 我 们 看 到 编号 为 的 火车 ， 我 们 有 理由 猜测 一 个 乘 数 a， 并 用 N = ai 来 估计 总 的 火车 
数 。 那 么 我 们 该 怎么 样 选择 a 使 得 估计 的 结果 能 使 均 方 误差 最 小 ? 


3. 仍然 假设 N = ai， 我 们 能 找到 一 个 使 得 入 为 无 偏 估计 量 的 a 吗 ? 
4. NN 是 多 少时 60 会 是 观测 到 的 平均 值 ? 
5. 在 假设 先 验 概率 为 1 到 200 上 的 离散 均匀 分 布 的 条 件 下 ， 贝 叶 斯 后 验 分 布 是 什么 样子 的 ? 
对 于 一 个 给 定 的 估计 量 和 N， 观 测 到 编号 为 1 (is N) 的 火车 的 概率 为 1N，i>N 的 概率 为 0。 所 
以 N 的 极 大 似 然 估 计量 是 W=i。 换 言 之 ， 如 果 观 测 到 的 火车 的 编号 是 60， 而 且 我 们 要 以 最 大 的 
概率 保证 结果 的 正确 性 ， 那 么 我 们 就 会 猜测 铁路 公司 有 60 辆 火车 。 
但 是 极 大 似 然 估计 的 结果 从 均 方 误差 的 角度 来 看 并 不 理想 。 我 们 可 以 通过 选择 一 个 N=ai 使 得 
估计 量 的 均 方 误差 达到 最 小 ， 这 里 唯一 需要 做 的 是 估计 好 a 的 值 。 
假设 实际 会 有 N 辆 火车 。 我 们 看 到 编号 为 i 的 火车 后 就 猜测 铁路 公司 有 ai 辆 火车 ， 那 么 平方 误差 
为 (a*i* — N)2。 
假设 我 们 观测 了 N 次 ， 且 看 到 了 所 有 的 火车 ， 那 么 均 方 差 就 是 : 
1 N 

MSE= 广 > — NY 

为 了 使 均 方差 最 小 ， 我 们 对 a 进行 求 导 : 


N 
dMSE 1 
二 = 二 > 2i(ai— N)=0 
da Ne 





人 
do 


3N 
“TaN+1 
粗略 看 来 这 个 结果 似乎 没什么 用 ， 因 为 等 式 的 右边 有 N。 我 们 要 想 知道 a 就 必须 知道 N， 但 是 
如 果 我 们 知道 了 N， 上 面 的 估计 就 全 然 不 需要 了 。 





考虑 到 N 很 大 的 时 候 a 收敛 于 3/2， 所 以 这 里 选择 对 N 的 估计 量 为 N=3i/2。 


再 从 无 偏 估计 的 角度 出 发 ， 首 先 计 算 平均 误差 : 


1 N 
ME= 二》 (oi-N) 
Ne 


当 N 很 大 时 ，a 收 化 到 2， 所 以 这 里 我 们 又 可 以 选择 N = 2i。 


到 目前 为 止 ， 我们 已 经 构造 了 3 个 估计 量 : i、3//2 和 2i， 分 别 满足 极 大 似 然 、 最 小 均 方 误差 和 
无 偏 性 。 


我 们 还 有 另外 一 种 估计 的 方式 : 选择 满足 总 体 均值 等 于 样本 均值 的 入 作为 N 的 估计 量 。 假 设 我 
们 观测 到 一 辆 火车 的 编号 为 |， 样本 均值 恰好 也 为 i”， 这 时 满足 群体 的 均值 入 等 于 样本 均值 的 火 
车 数 的 估计 量 为 N = 2i 一 1。 

最 后 ， 我 们 从 贝 叶 斯 统计 的 角度 来 回答 这 个 问题 。 我 们 计算 


p(sll) = PE 


这 里 Hn 是 一 个 假设 ， 假 设 总 共有 n 辆 火车 。i 表 示 我 们 的 观测 ， 即 观测 到 的 火车 的 编号 。 当 i<n 
时 ， P(i|Hn) = 1/n， 其 余 情况 为 0，P(i) 是 为 一 化 常数 。 


如 果 N 的 先 验 分 布 是 1 到 200 上 的 一 个 均匀 分 布 ， 我 们 就 副 历 这 200 种 假设 ， 并 计算 每 种 假设 的 
后 验 概 率 。 读 者 可 以 从 http://thinkstats.com/locomotive.py 下 载 到 实现 所 用 的 代码 。 最 终 的 结 
果 如 图 8-1 所 示 。 


8-1 火车 数 后 验 分 布 


根据 贝 叶 斯 后 验 概率 ， 我 们 得 到 90% 的 可 信 区 闻 为 [63, 189]， 这 仍然 是 一 个 非常 大 的 范围 。 仅 
仅 观 测 到 一 辆 火车 的 编号 并 不 能 为 任意 假设 提供 非常 强 的 证 据 ， 虽 然 它 将 n<i 的 可 能 性 排除 在 
外 了 。 


如 果 一 开始 我 们 设 定 不 同 的 先 验 概率 ， 后 验 概率 就 会 显著 不 同 ， 这 能 帮助 你 理解 为 什么 其 他 
估计 量 有 多 个 。 


本 节 我 们 针对 同一 个 参数 构造 了 多 个 不 同 的 估计 量 ， 我 们 可 以 认为 这 些 是 从 一 些 不 够 精确 的 
先 验 出 发 得 到 的 结果 。 假 如 有 足够 的 先 验 信息 ， 那 么 这 些 估 计量 将 倾向 于 收 化 到 同一 个 值 。 
总 之 ， 在 我 们 的 例子 里 ， 没 有 一 个 统计 量 能 够 满足 我 们 期 望 的 所 有 性 质 。 


习题 8-6 


推广 locomotive.py， 使 之 能 处 理 当 观测 到 的 火车 数 多 于 1 辆 时 的 情况 ， 读 者 只 需 改动 几 行 代码 
就 可 以 完成 。 


看 看 你 能 否 回答 上 述 情况 下 的 其 他 问题 。 维 基 百 科 页 
面 http://wikipedia.org/wiki/German_tank_problem 提 供 了 更 多 的 问题 和 讨论 。 


8.10 术语 


。 有 偏 性 (bias) 在 平均 多 次 试验 的 结果 后 ， 一 个 估计 量 倾向 于 高 估 或 者 低估 真实 的 参数 
值 。 

。 删 失 数据 (censored data) 一 种 数据 集 ， 数 据 来 源 于 某 种 采集 方式 ， 但 是 这 种 采集 方 
式 会 系统 性 地 排除 某 些 数据 。 

。 置信 区 间 (confidence interval) 一 种 参数 的 区 间 估 计 ， 以 一 定 的 概率 包含 待 估计 的 参 
数 。 

。 可 信和 区 间 (credible interval) 贝 叶 斯 统计 理论 中 的 置信 区 间 。 

。 估计 (estimation) 用 样本 信息 估计 分 布 中 未 知 参数 的 过 程 。 

。 估计 量 (estimator) 用 于 估计 参数 的 统计 量 。 

。 极 大 似 然 估 计量 (maximum likelihood estimator) 使 得 似 然 函数 最 大 化 的 估计 。 

。 均 方 误差 (mean squared error) 一 种 衡量 估计 误差 的 值 。 

。 点 估计 (point estimate) 用 单一 的 值 估计 某 个 参数 。 


第 9 章 相关 性 


9.1 标准 分 数 


本 章 我 们 将 开始 关注 变量 与 变量 之 间 的 关系 。 例 如 ， 我 们 会 觉得 一 般 而 言 身高 越 高 的 人 体重 
越 重 。 相 关 (correlation) 就 是 用 来 描述 这 种 类 型 的 关系 的 。 

在 衡量 相关 关系 的 时 候 会 出 现 的 一 个 问题 是 ， 两 个 变量 有 不 同 的 度量 衡 。 如 身高 是 用 厘米 度 
量 的 ， 而 体重 则 是 用 千克 衡量 的 。 还 有 一 个 问题 ， 即 使 两 个 变量 有 相同 的 单位 ， 它 们 的 分 布 
也 不 同 。 


有 两 种 方法 可 以 解决 这 些 问题 。 


1， 将 所 有 的 值 转换 成 标准 分 数 (standard score) ， 这 就 引出 了 皮尔 逊 相 关系 数 。 
2. 将 所 有 的 值 转 换 成 百 分 等 级 ， 这 就 引出 了 斯 皮尔 曼 相 关系 数 。 


假设 X 是 一 个 序列 ，zxw; 是 其 中 的 一 个 值 ， 我 们 定义 标准 分 数 的 转换 公式 为 Zi = (zi -由 /aa， 这 
里 1 表示 序列 的 均值 ，o 表 示 标 准 差 。 


转换 公式 的 分 子 表示 一 个 离 差 ， 是 x 与 均值 的 差异 。 除 以 o 是 为 了 标准 化 偏差 。 这 样 Z 的 单位 
就 为 1， 而 且 均 值 为 0， 方 差 为 1。 


Z 的 分 布 形状 与 X 相 似 ， 即 如 果 X 是 一 个 正 态 分 布 ， 那 么 Z 也 是 一 个 正 态 分 布 ; 如 果 X 的 分 布 酌 
数 非 对 称 ， 或 者 有 一 些 异常 值 ， 那 么 Z 也 是 如 此 。 这 类 情况 下 ， 百 分 等 级 转换 会 提供 更 为 鲁 棒 
的 结果 。 如 R 是 X 的 一 个 百 分 等 级 转换 结果 ， 那 么 不 论 X 服 从 什么 类 型 的 分 布 ，R 都 服从 0 到 
100 上 的 均匀 分 布 (R 的 单位 为 %) 。 


9.2 协 方 看 


协 方差 (covariance) 可 以 用 来 衡量 相关 变量 变化 趋势 是 否 相 同 。 假 设 我 们 有 两 列 序列 X 和 
Y， 它 们 与 其 均值 离 差 为 : 


dzi = Ti — HX 
dyi = Yi — HY 
这 里 1x 是 X 的 均值 ，jwy 是 Y 的 均值 。 如 果 X 和 YY 的 变化 方向 一 致 ， 那 么 它们 与 均值 的 离 差 点 有 


相同 的 正 负 号 。 


如 果 我 们 将 二 者 的 离 差 相 乘 ， 那 么 当 二 者 的 符号 相同 时 ， 乘 积 为 正 数 。 所 以 这 些 乘积 加 和 的 
结果 可 以 用 来 衡量 两 个 序列 变化 是 否 一 致 。 


协 方差 就 是 这 些 乘积 结果 的 平均 值 : 


了 
cov(X,Y)= 责 >》 dridy; 
这 里 n 表 示 序 列 的 长 度 (X 和 Y 必 须 有 相同 的 长 度 ) 。 
协 方 差 的 计算 比较 简单 ， 但 我 们 一 般 较 少 使 用 ， 因 为 这 个 值 很 难 解 释 。 另 一 个 问题 是 ， 协 方 
差 的 单位 是 X 和 Y 的 单位 的 乘积 。 在 前 面 的 那个 例子 里 ， 这 个 单位 就 是 千克 * 厘 米 ， 我 们 还 很 难 
说 这 个 单位 有 什么 意义 。 
习题 9-1 


请 编写 一 个 计算 两 个 数据 序列 协 方差 的 男 数 Cov， 为 了 测试 你 写 的 画 数 ， 可 以 计算 两 个 相同 序 
列 的 协 方差 ， 确 保有 Cov(X, XX) = Var(X)。 


读者 可 以 从 http://thinkstats.com/correlation.py 下 载 到 答案 。 


9.3 相关 性 


解决 上 一 节 协 方差 遇 到 的 问题 的 方法 是 用 标准 分 数 来 代替 原始 的 值 ， 计 算 两 个 标准 分 数 的 乘 


Ti HX Yi— HY 
OX OY 


Pi C= 


p= DP 


这 个 值 称 为 皮尔 逊 相 关系 数 (Pearson's correlation) ， 用 以 纪念 现代 统计 学 创立 者 卡尔 :皮尔 
逊 。 相 比 于 协 方差 ， 相 关系 数 很 容易 计算 ， 更 重要 的 是 ， 它 的 结果 更 容易 解释 。 相 关系 数 的 
单位 为 1。 


相关 系数 p 的 取 值 为 -1 到 1 之 间 。 我 们 改写 一 下 p 的 表达 形式 就 可 以 很 容易 得 到 这 个 结果 : 


_ Cov(X,Y) 
PXPY 


将 离 差 项 代入 公式 ， 可 得 


Sy dzridyz 


?yan dy 
利用 著名 的 柯 西 一 施 瓦 益 不 等 式 【1] (Cauchy-Schwarz inequality) 即 可 证 明 p2<1， 故 而 
有 -1<p<1。 


[1] 参见 http://wikipedia.org/wiki/Cauchy-Schwarz_inequality。 


Pp 的 绝对 值 的 大 小 代表 两 个 变量 相关 的 程度 。 当 p=1 时 ， 两 个 变量 完全 相关 ， 即 如 果 我 们 知道 
了 其 中 一 个 变量 的 值 ， 就 可 以 精确 预测 另 一 个 变量 的 值 。p=-1 时 也 是 同样 的 情况 ， 只 是 两 个 
变量 是 完全 负 相 关 而 已 。 


现实 中 大 部 分 的 相关 都 没有 这 么 完全 ， 但 是 相关 系数 仍然 提供 了 一 些 有 用 的 信息 。 例 如 ， 在 
知道 了 一 个 人 的 身高 后 ， 我 们 猜测 这 个 人 的 体重 ， 虽 然 我 们 不 大 可 能 猜 对 ， 但 是 相 比 于 不 知 
道 身 高 的 情况 下 ， 我 们 依然 可 以 猜测 得 更 准确 。 皮 和 尔 逊 相关 系数 衡量 了 我 们 能 够 多 准确 地 猜 
测 结果 。 

如 果 p=0， 这 是 不 是 意味 着 两 个 变量 之 间 富 无 关系 呢 ? 不 幸 的 是 我 们 不 能 得 出 这 个 结论 。 皮 尔 


进 相关 系数 只 是 衡量 两 个 变量 之 间 的 线性 关系 。 如 果 两 个 变量 之 间 的 关系 不 是 线性 的 ， 那 么 p 
可 能 低估 两 个 变量 之 间 的 相关 性 。 


9-1 来 源 于 http://wikipedia.org/wiki/Correlation_and_dependence。 图 中 展示 了 一 些 精心 构 
造 的 数据 的 散 点 图 及 对 应 的 相关 系数 。 
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9-1 具有 一 定 相 关 性 的 示例 数据 集 


图 中 第 一 行 展示 了 几 组 有 线性 相关 性 的 数据 的 相关 系数 ， 我 们 可 以 直观 地 了 解 这 些 相关 系数 
大 约会 对 应 到 什么 水 平 的 关系 。 第 二 行 展 示 了 完全 相关 的 数据 的 相关 系数 ， 这 里 我 们 发 现 相 
关系 数 跟 斜率 是 无 关 的 〈 稍 后 就 会 讲 到 估计 斜率 ) 。 第 三 行 展 示 了 一 些 有 明显 相关 性 的 数 
据 ， 但 由 于 这 些 关系 不 是 线性 的 ， 这 里 的 皮尔 逊 相 关系 数 等 于 0。 


这 提醒 我 们 别 盲目 地 相信 这 个 系数 ， 在 计算 相关 系数 之 前 ， 一 定 要 画 个 散 点 图 观察 一 下 数 
据 。 
习题 9-2 


请 编写 一 个 计算 相关 系数 的 画 数 Corr， 该 男 数 可 接受 两 组 数据 。 提 示 : 这 里 可 以 用 到 之 前 的 
画 数 thinkstats.Var 和 Cov。 


可 以 通过 计算 Corr(X, X) 是 否 等 于 1 来 测试 男 数 是 否 正确 。http://thinkstats.com/correlation.py 
提供 了 一 个 答案 。 


9.4 用 pyplot 画 散 点 


散 点 图 是 探测 两 个 变量 是 否 具 有 相关 性 的 最 简单 的 方法 ， 但 是 要 画 一 张 高 质量 的 散 点 图 并 不 
容易 。 接 下 来 我 们 用 4.5 节 所 提 到 的 行为 危险 因素 监控 有 系统 (BRFSS) 中 的 身高 和 体重 做 图 。 
pyplot 中 提供 了 一 个 画 散 点 图 的 函数 scatter : 


Import matplotlib.pyplot as pyplot pyplot.scatter(heights, weights) 


图 9-2 是 画 出 来 的 结果 。 从 图 中 可 以 看 到 二 者 确实 是 正 相 关 的 ， 身 高 较 高 的 人 体重 较 大 。 但 这 
个 结果 并 不 理想 ， 图 中 明显 可 以 看 到 数据 点 被 分 成 一 列 列 的 。 这 是 因为 在 收集 身高 数据 时 ， 
是 以 英寸 为 基本 单位 收集 的 ， 转 换 成 厘米 之 后 也 进行 了 取 整 。 这样 就 丢失 了 一 些 信息 。 


而 和 8 布谷 
0 
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图 9-2 BRFSS 中 被 调查 者 体重 一 身高 简易 散 点 图 
显然 那些 丢失 的 信息 已 经 无 可 挽回 ， 但 我 们 可 以 给 每 个 身高 数据 加 一 个 随机 扰动 来 尽 可 能 地 


使 数据 回 到 之 前 的 样子 。 因 为 数据 是 以 英寸 为 单位 收集 的 ， 我 们 可 以 给 它们 加 上 一 个 扰动 
(jitter) ， 这 里 给 它们 加 上 一 个 [-0.5, 0.5] 英 寸 上 的 均匀 分 布 的 随机 数 ， 换 算 成 厘米 后 的 范围 
是 [-1.3, 1.3] : 


Jitter = 1.3 
heights = [h + random.uniform(-jitter, jitter) for h in heights] 


Kt 


图 9-3 展 示 了 处 理 后 的 数据 的 散 点 图 。 图 中 的 趋势 更 加 明显 了 。 一 般 情况 下 我 们 可 以 通过 这 种 
方法 来 得 到 更 有 说 服 力 的 图 ， 不 过 ， 在 进行 数据 分 析 时 就 必须 用 原始 数据 。 
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图 9-3 数据 进行 扰动 处 理 后 的 散 点 图 


即使 进行 了 上 述 数据 扰动 处 理 ， 我 们 可 能 依然 无 法 很 好 地 展示 数据 。 因 为 图 中 有 很 多 点 重生 
在 一 起 ， 这 样 就 隐藏 了 图 中 密集 度 高 的 一 些 数据 的 信息 ， 同 时 可 能 会 过 分 凸显 那些 异常 值 。 


我 们 可 以 引入 一 个 透明 度 参数 a 来 解决 这 个 问题 : 


pyplot.scatter(heights, weights, alpha=0.2) 


图 9-4 展 示 了 增加 透明 度 后 的 结果 。 图 中 有 重 莒 的 点 看 起 来 颜色 更 深 了 ， 这 样 颜色 深度 就 跟 点 
的 密度 成 比例 地 变化 。 图 中 在 90 kg 附近 有 一 个 明显 的 横 线 ， 数 据 是 被 调查 者 提供 的 ， 所 以 这 
里 最 可 能 的 原因 是 人 们 对 体重 的 数据 进行 了 取 整 (或 许 他 们 想 让 自己 的 体重 看 起 来 更 轻 一 


些 ) 。 
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9-4 数据 进行 扰动 义理 并 引入 透明 度 参 数 后 的 散 点 


这 样 的 图 很 适合 用 在 那些 数据 量 不 是 很 大 的 情况 。 这 里 我 们 仅 用 了 BRFSS 中 的 1000 个 数据 ， 
而 BRFSS 总 共 包 含 了 414 509 个 数据 。 

当 我 们 要 处 理 大 量 的 数据 时 ， 上 述 方法 可 能 看 起 来 都 会 一 团 粮 。 我 们 可 以 用 一 种 称 为 hexbin 
的 方法 来 处 理 这 样 的 问题 : 首先 将 图 分 成 一 个 个 小 格子 ， 统 计 每 个 格子 中 有 多 少 个 数据 点 ， 
然后 根据 格子 中 点 的 个 数 来 上 色 。pyplot 提 供 了 一 个 hexbin 函 数 来 实现 这 个 功能 : 


pyplot.scatter(heights, weights, cmap=matplotlib.cm.Blues) 


图 9-5 展 示 了 hexbin 的 结果 。 这 种 图 的 好 你 是 能 展示 出 数据 关系 的 整体 形状 ， 对 于 大 型 数据 集 
非常 高 效 ， 但 缺点 是 我 们 可 能 看 不 见 那些 异常 值 了 。 


统计 思维 : 程序 员 数 学 之 概率 统计 
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图 9-5 使 用 hexbin 函 数 绘制 的 散 点 图 


上 述 例子 告诉 我 们 ， 要 画 一 张 能 真实 反映 数据 关系 的 散 点 图 并 不 是 一 件 容易 的 事情 。 读 者 可 
以 从 http:Wthinkstats.com/brfss_scatter py 下载 到 本 节 画 图 所 用 的 代码 。 
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9.5 斯 皮尔 曼 秩 相关 


如 果 两 组 数据 的 变量 分 别 大 臻 正常， 而且 两 者 呈 线 性 关系 ， 那 么 皮尔 进 相关 系数 可 以 很 好 地 
刻画 它们 之 间 的 关系 。 但 是 皮尔 逊 相 关系 数 对 异常 值 的 影响 很 敏感 。 


Anscombe 构 造 的 4 组 数据 (Anscombe's quartet) 很 明显 地 说 明了 这 个 问题 。 这 4 个 数据 集 有 
相同 的 相关 系数 : 第 一 个 是 两 组 变量 呈 线 性 关系 ， 但 有 随机 噪声 的 影响 ; 第 二 个 是 两 组 变量 
呈 某 种 非 线性 的 函数 关系 ; 第 三 个 是 两 组 变量 呈 完 全 的 线性 关系 ， 但 是 有 一 个 异常 值 ; 最 后 
一 个 是 两 组 变量 并 无 相关 性 ， 但 一 个 异常 值 除 外 。 读 者 可 以 从 
http://wikipedia.org/wiki/Anscombe's_quartet 了 解 到 更 具体 的 信息 。 


斯 皮尔 曼 秩 相关 系数 (Spearman's Rank Correlation) 可 以 用 在 存在 异常 值 和 变量 分 布 非常 
不 对 称 的 情况 。 为 了 计算 斯 皮尔 曼 秩 相关 系数 ， 我 们 先 计 算 序列 中 数值 的 秩 (rank) ， 即 某 
个 值 在 序列 中 按 大 小 排序 后 的 位 置 。 例 如 在 序列 {7, 1, 2, 5} 中 ， 值 5 的 秩 等 于 3， 因 为 按 从 小 
到 大 排序 ，5 在 这 个 序列 中 排 第 3 位 。 将 序列 转换 成 秩 之 后 ， 再 计算 皮尔 逊 相关 系数 ， 得 到 的 
结果 就 是 斯 皮尔 曼 秩 相关 系数 。 


除了 斯 皮尔 曼 秩 相关 系数 ， 另 一 种 方法 是 对 原始 的 数据 做 一 个 变换 ， 使 得 变换 之 后 的 结果 接 
近 正 态 分 布 ， 然 后 再 算 皮 尔 逊 相关 系数 。 例 如 ， 如 果 数 据 近 似 服从 对 数 正 态 分 布 ， 那 么 我 们 
可 以 先 对 数据 取 对 数 ， 然 后 再 算 相关 系数 。 

习题 9-3 


请 编写 一 个 计算 数据 序列 的 秩 的 函数 。 例 如 ， 设 一 个 数据 序列 为 {7, 1, 2, 5}， 做 秩 转 换 后 结果 
为 {4, 1, 2, 3}。 


如 果 数 据 序列 中 出 现 多 个 相同 的 值 ， 那 么 严格 的 做 法 是 给 这 些 数值 赋予 一 个 秩 的 平均 值 。 但 
如 果 不 这 么 严格 ， 而 是 随意 地 给 这 些 值 安排 个 顺序 ， 一 般 也 不 会 造成 什么 误差 。 


请 编写 一 个 辑 数 ， 计 算 两 个 数据 序列 的 斯 皮尔 曼 秩 相关 系数 。 读 者 可 以 从 
http://thinkstats.com/correlation.py 下 载 本 题 的 答案 。 
习题 9-4 


请 下 载 http://thinkstats.com/brfss.py 和 http://thinkstats.com/brfss_scatter.py 并 运行 这 些 代 码 。 
确保 你 能 读 懂 BFRSS 数 据 ， 然 后 生成 散 点 图 。 


将 生成 的 图 与 图 9-1 做 比较 ， 你 期 望 这 里 的 皮尔 逊 相 关系 数 会 是 多 少 ? 计算 得 到 的 结果 呢 ? 


成 人 体重 大 致 服从 对 数 正 态 分 布 ， 也 有 相关 的 异常 值 影响 。 请 绘制 体重 的 对 数 与 身高 的 散 点 
图 ， 并 计算 变换 后 的 皮尔 逊 相关 系数 。 


最 后 ， 请 计算 体重 和 身高 的 斯 皮尔 曼 秩 相关 系数 。 你 觉得 哪个 相关 系数 能 更 好 地 描述 这 两 个 
变量 关系 的 强度 ?可 从 http://thinkstats.com/brfss_corr.py 下 载 到 问题 的 答案 。 


9.6 最 小 二 乘 拟 合 


相关 系数 可 以 衡量 两 个 变量 之 间 线 性 相关 的 强度 和 正 负 ， 但 是 无 法 知道 它们 的 斜率 。 有 很 多 
方法 可 以 用 来 估计 斜率 ， 其 中 线性 最 小 二 乘 拟 合 (linear least square fit) 是 最 常用 的 一 种 方 
法 。 线 性 拟 合 (linear fit) 指 的 是 用 一 个 线性 的 方程 来 拟 合 两 个 变量 之 间 的 关系 。 最 小 二 乘法 
(least square) 是 使 拟 合 范 数 与 数据 之 间 的 均 方 误 羡 达到 最 小 的 拟 合 方法 [1] 。 


[1] 参见 http:/wikipedia.org/wiki/Simple linear_regression。 


假设 我 们 有 一 个 数据 序列 Xx， 要 通过 X 的 一 个 画 数 来 预测 另 一 个 数据 序列 Y。 如 果 这 个 预测 了 
数 是 线性 的 ， 截 距 为 a， 和 斜率 为 B， 那 么 我 们 可 以 预期 yi 大 约会 等 于 a+Bxi。 


除非 这 两 个 序列 是 完全 线性 相关 的 ， 否 则 我 们 只 能 近似 地 预测 Y 的 值 。 预 测 的 离 差 (或 称 残 差 ) 
为 : 


ei= (a+ Pri)— yi 


残 差 的 出 现 可 能 是 由 数据 测量 误差 造成 的 ， 也 可 能 是 一 些 我 们 未 知 的 非 随机 因素 引起 的 。 例 
如 ， 当 我 们 通过 身高 的 一 个 函数 来 预测 体重 时 ， 这 些 未 知 的 因素 可 能 就 包括 饮食 、 身 体 锻 炼 
情况 和 体型 等 。 


假设 两 个 变量 存在 这 样 的 一 个 线性 关系 ， 那 么 如 果 我 们 错误 地 估计 了 参数 a 和 B， 就 会 造成 很 
大 的 残 差 。 所 以 ， 这 些 参数 自然 应 该 使 得 残 差 尽 可 能 地 小 。 


一 般 地 ， 可 以 通过 最 小 化 残 差 的 绝对 值 、 平 方 、 立 方 等 来 求解 人 参数。 实际 中 最 通用 的 方法 是 
使 残 差 的 平方 和 最 小 ， 即 


mina,p > ， e? 
我 们 解释 一 下 这 个 选择 的 原因 。 


。 平方 能 将 正 残 差 和 负 残 差 都 变 成 正 数 ， 这 符合 我 们 的 目标 。 

。 平方 相当 于 给 残 差 赋予 了 一 个 权重 ， 越 大 的 残 差 (绝对 量 ) 被 赋予 的 权重 越 大 。 但 是 并 
不 是 所 有 情况 下 大 的 残 差 都 应 该 被 赋予 大 的 权重 ， 因 为 这 样 拟 合 方程 就 很 容易 受到 异常 
值 的 影响 。 

。 在 残 差 服 从 均值 为 0、 方 差 为 02 (未 知 ， 但 为 常数 ) 的 正 态 分 布 ， 且 在 残 差 与 x 独立 的 假 
设 下 ， 参 数 的 最 小 二 乘 估计 结果 与 极 大 似 然 估 计量 相同 。 [2] 

。 最 小 二 乘 估计 的 计算 非常 简单 。 


[2] 请 参考 Press 等 人 合 著 的 Numerical Recipes in C 第 15 章 : http:/Wt.cn/zYeSWUm。 


就 现在 而 言 ， 除 非 在 某 些 计 算 效 率 比 方法 更 重要 的 情况 下 ， ed 个 原因 
那么 具有 吸引 力 了 。 所 以 更 多 时 候 要 思考 的 是 ， 就 我 们 的 问题 而 言 最 小 
方法 。 


例如 ， 我 们 用 X 来 预测 Y。 如 果 预 测 结 果 偏 高 造成 的 代价 远 低 于 预测 结果 偏 低 造成 的 代价 ， 那 
么 构造 一 个 损失 函数 cost(e)， 并 最 小 化 损失 函数 会 是 一 个 更 好 的 选择 。 


接 下 来 我 们 介绍 如 何 进行 最 小 二 乘 拟 合 。 


1. 计算 两 个 序列 的 均值 去 和 7，X 的 方差 ，X 和 Y 的 协 方差 。 
2.， 估计 斜率 = Pe 21) 
3， 估计 截 距 人 = 了 -有 5 


读者 可 以 从 http://wikipedia.org/wiki/Numerical_ methods for linear least _ squares 了 解 公 式 的 
推导 过 程 。 





习题 9-5 


请 编写 一 个 名 为 LeastSquares 的 函数 ， 用 来 估计 X 和 YY 的 回 为 系数 和 
。 可 以 从 http://thinkstats.com/correlation.py 下 载 到 问题 的 答案 。 


习题 9-6 


在 BRFSS 的 数据 中 ， 请 用 身高 对 体重 的 对 数 进行 最 小 二 乘 拟 合 。 可 以 从 
http://thinkstats.com/brfss_corr.py 下 载 到 问题 的 答案 。 


习题 9-7 


某 个 地 点 风速 的 分 布 决定 了 该 地 点 的 风能 密度 。 风 能 密度 是 安装 在 该 位 置 的 风力 涡轮 机 所 能 
产生 的 平均 功率 的 上 限 。 根 据 之 前 的 一 些 研究 ， 风 速 的 经 验 分 布 非常 接近 威 布尔 分 布 〈 参 
考 http://wikipedia.org/wiki/Wind_power#Distribution_ of wind speed) 。 


人 有 安装 风力 涡轮 机 的 价值 ， 我 们 可 以 在 这 个 地 方 设置 一 个 风力 计 来 测 
一 段 时 间 内 的 风速 。 但 很 难 测量 到 风速 分 布 的 尾巴 ， 因 为 可 以 认为 这 是 一 个 小 概率 事情 ， 
ee 


一 种 解决 这 个 问题 的 方法 是 ， 我 们 先 估计 威 布尔 分 布 的 参数 ， 再 对 分 布 求 积 分 计算 风能 
度 。 


为 了 估计 威 布尔 分 布 的 参数 ， 可 以 用 习题 4-6 中 的 变换 方法 ， 然 后 用 最 小 二 乘 拟 合 来 计算 变换 
数据 的 斜率 和 截 距 。 


请 编写 一 个 从 威 布尔 分 布 中 抽取 样本 并 估计 分 布 参数 的 函数 。 


最 后 请 编写 一 个 利用 威 布尔 分 布 参数 计算 平均 风能 密度 的 酚 数 。 (这 里 你 可 能 需要 了 解 一 下 
风力 方面 的 专业 知识 。) 


9.7 拟 合 优 度 


在 用 线性 模型 拟 合 完 数 据 之 后 ， 我 们 需要 评估 模型 拟 合 的 好 坏 情况 。 当 然 ， 这 种 评估 取决 于 
我 们 想 要 用 这 个 模型 来 做 什么 。 一 种 评估 模型 的 办 法 是 计算 模型 的 预测 能 力 。 

在 一 个 预测 模型 中 ， 我 们 要 预测 的 值 称 为 因 变 量 (dependent variable) ， 而 用 于 预测 的 值 称 
为 解释 变量 或 自 变量 (explanatory variable 或 independent variable) 。 


我 们 可 以 通过 计算 模型 的 确定 系数 (coefficient of determination) ， 也 即 通常 所 说 的 RR， 来 
评价 模型 的 预测 能 


Var(e) 


民工 一 
Var(Y) 





我 们 通过 一 个 例子 来 解释 一 下 R2 的 意义 。 假 设 你 试图 去 猜测 一 群 人 的 体重 是 多 少 ， 你 知道 这 
群 人 的 平均 体重 是 y。 如 果 除 此 之 外 你 对 这 些 人 一 点 儿 都 不 了 解 ， 那 么 你 最 佳 的 策略 是 选择 猜 
测 他 们 所 有 人 的 体重 都 是 y。 这 时 ， 估 计 的 均 方 误差 就 是 这 个 群体 的 方差 var(Y): 


MSB = 2 (~) = Var(Y) 


接 下 来 ， 假 如 我 告诉 你 这 群 人 的 身高 信息 ， 那 么 你 就 可 以 猜测 体重 大 约 为 & 十 6x;， 在 这 种 情 
况 下 ， 估 计 的 均 方 误差 就 为 Var(e) : 
MSE = SC + Br;— yi)* = Var(e) 


所 以 ，Var(s)/Var(Y) 表 示 的 是 有 解释 变量 情况 下 的 均 方 误差 与 没有 解释 变量 情况 下 的 均 方 误差 
的 比值 ， 也 即 不 能 被 模型 解释 的 均 方 误差 占 总 的 均 方 误差 的 比例 。 这 样 R2 表 示 的 就 是 能 被 模 
型 解释 的 变异 性 的 比例 。 


假如 一 个 模型 的 尺 ” = 0.64， 那 么 我 们 就 可 以 说 这 个 模型 解释 了 64% 的 变异 性 ， 或 者 可 以 更 精 
确 地 说 ， 这 个 模型 使 你 预测 的 均 方 误差 降低 了 64%。 


在 线性 最 小 二 乘 模 型 中 ， 我 们 可 以 证 明确 定 系数 和 两 个 变量 的 皮尔 逊 相关 系数 存在 一 个 非常 
简单 的 关系 ， 即 : 


R?=p? 


具体 证 明 可 参考 http://en.wikipedia.org/wiki/Coefficient_of_determination。 


习题 9-8 


韦 克 斯 勒 成 人 智力 量 测验 (Wechsler Adult Intelligence Scale，WAIS) 是 一 种 测量 智商 的 方 
法 。 测 量 的 分 数 都 进行 了 校正 ， 使 得 其 人 群 中 的 均值 为 100， 标 准 差 为 15。 


假设 你 想 通过 一 群 人 的 SAT 成 绩 来 预测 这 些 人 的 WAIS 分 数 。 根 据 之 前 的 一 项 研究 ，SAT 成 绩 
与 WAIS 分 数 之 间 的 皮尔 逊 相 关系 数 为 0.72。 


如 果 将 你 的 模型 用 到 一 个 非常 大 的 人 群 中 ， 你 预期 预测 的 均 方 误差 会 是 多 


ED 


提示 : 如 果 总 是 预测 WAIS 分 数 等 于 100， 那 么 均 方 误差 会 是 多 少 呢 ? 
习题 9-9 
编写 一 个 名 为 Residuals 的 函数 ， 根 据 X、Y、& 和 6， 计 算 残 差 s;。 


编写 一 个 名 为 CoefDetermination 的 函数 ， 根 据 e; 和 Y， 计 算 R2。 要 测试 画 数 的 正确 性 ， 看 是 


否 有 R? = p?。 读 者 可 以 从 http://thinkstats.com/correlation.py 下 载 问题 的 答案 。 
习题 9-10 


根据 BRFSS 中 身高 和 体重 的 数据 ， 计 算 &、A 和 尺 2。 如 果 需 要 预测 一 个 人 的 体重 ， 那 么 他 的 身 
高 会 对 你 起 多 大 的 帮助 ? 读者 可 以 从 http://thinkstats.com/brfss_corr.py 下 载 问题 的 答案 。 


9.8 相 天 性 和 因果 关系 


一 般 说 来 ， 两 个 变量 之 间 的 相关 关系 并 不 能 告诉 我 们 一 个 变量 的 变化 是 否 是 由 另 一 个 变量 的 
变化 引起 的 ; 或 许 两 个 变量 就 没有 直接 的 因果 关系 ， 而 是 因为 其 他 原因 导致 二 者 同时 发 生 了 
相同 〈 或 相反 ) 趋势 的 变化 ; 也 或 许 就 是 因为 偶然 因素 造成 了 它们 之 间 的 相关 性 。 ( 参 

考 http://xkcd.com/552/。) 


维基 百科 的 “Correlation does not imply causation” 简 要 列 出 了 可 能 导致 两 个 变量 产生 相关 性 的 
原 因 。 读 者 可 以 参考 http:/en.wikipedia.org/wiki/Correlation_does_not imply_causation。 





那么 我 们 怎么 样 才能 从 相关 性 的 信号 中 得 到 因果 关系 的 结果 呢 ? 


1， 利 用 时 间 的 先后 关系 。 如 果 A 事 件 在 B 事 件 之 前 发 生 ， 那 么 A 就 有 可 能 是 导致 B 的 原因 (但 
反之 不 成 立 ， 根 据 因 果 关 系 的 常识 是 这 样 的 ) 。 事 件 发 生 的 顺序 可 以 帮助 我 们 推断 因果 
顺序 ， 但 是 这 并 不 能 排除 存在 另外 一 些 事件 导致 了 A 和 B 的 发 生 。 

2. 利用 随机 性 。 如 果 我 们 将 一 个 非常 大 的 总 体 随 机 分 成 两 部 分 ， 然 后 分 别 计算 这 些 变量 在 
两 个 子 总 体 中 的 平均 值 。 我 们 可 以 期 望 这 些 均 值 的 差异 会 很 小 ， 因 为 中 心 极限 定理 保证 
了 这 一 结果 。 如 果 有 一 个 变量 在 两 个 分 组 中 有 明显 的 差别 ， 而 其 他 所 有 的 变量 在 两 个 分 
组 里 面 都 几乎 一 样 ， 这 时 我 们 就 可 以 排除 掉 一 些 虚假 的 相关 性 。 即使 相关 变量 未 知 ， 这 
个 方法 也 行 得 通 ， 当 然 知道 会 更 好 ， 这 桩 我 们 就 能 检查 两 个 分 组 是 否 一 致 。 


随机 对 照 试 验 (randomized controlled trial) 就 是 根据 这 些 想 法 设置 的 。 在 这 种 试验 中 ， 被 试 
者 被 随机 地 分 成 两 组 (或 多 组 ) : 实验 组 (treatment group) 会 接受 某 种 干预 ， 例 如 服用 某 
种 新 药 ; 而 对 照 组 (control group) 则 不 接受 这 种 干预 ， 或 者 只 接受 已 知 效应 的 义理 。 


随机 对 照 试验 的 结果 在 因果 关系 的 鉴定 上 是 最 可 信赖 的 方法 之 一 ， 在 循 证 医学 中 有 广泛 的 应 
用 。 参 考 http://wikipedia.org/wiki/Randomized_controlled_trial。 


不 幸 的 是 ， 随 机 对 照 试验 只 能 用 于 实验 研究 、 药 物 研发 等 少数 情况 。 社 会 科学 很 少 用 到 这 种 
方法 ， 因 为 这 种 试验 可 能 无 法 进行 ， 或 者 会 引起 伦理 争端 。 


另外 一 种 方式 是 进行 自然 试验 (natural experiment) 。 在 这 种 试验 中 ， 我 们 尽量 控制 群体 在 
各 个 方面 都 是 相似 的 ， 然 后 对 不 同 的 群体 实施 不 同 的 处 理 。 这 里 会 涉及 的 一 个 问题 是 各 个 群 
体 可 能 存在 一 些 我 们 观测 不 到 的 差异 。 维 基 百 科 上 给 出 了 更 详细 的 信 


息 http://wikipedia.org/wiki/Natural_experiment。 


在 某 些 情况 下 我 们 能 通过 回 为 分 析 (regression analysis) 推断 出 因果 关系 。 线 性 最 小 二 乘 是 
用 自 变量 解释 因 变 量 的 简单 回归。 本 章 只 讨论 了 有 一 个 自 变量 时 的 情况 ， 多 个 自 亦 量 的 回 为 
所 用 的 技术 与 本 章 所 用 的 基本 相同 。 


本 书 并 未 涉及 这 些 技术 ， 有 很 多 种 方法 可 以 控制 虚假 的 相关 性 。 例 如 ， 在 NSFG 的 数据 中 ， 我 
们 发 现 第 一 胎 婴 儿 的 体重 倾向 于 上 比 非 第 一 胎 婴 儿 的 轻 (参见 3.6 节 ) ， 但 是 婴儿 出 生 的 体重 还 
与 母亲 的 年 龄 有 关 。 而 生 第 一 胎 婴 儿 的 母亲 的 年 龄 倾向 于 上 比 生 非 一 胎 婴 儿 母 亲 的 小 。 


所 以 有 可 能 是 生 第 一 胎 婴 儿 的 母亲 更 年 轻 导 致 了 第 一 胎 婴 儿 的 体重 更 轻 。 为 了 控制 年 龄 的 影 
响 ， 我 们 可 以 将 母亲 按 年 龄 大 小 分 组 ， 然 后 比较 同一 个 分 组 中 第 一 胎 婴 儿 的 体重 和 非 第 一 胎 
婴儿 的 体重 。 


如 果 这 时 体重 的 差异 依然 存在 ， 那 么 我 们 就 可 以 说 这 种 体重 上 的 差异 跟 母 亲 的 年 龄 无 关 。 但 
如 果 这 时 名 个 分 组 之 间 的 体重 差异 消失 了 ， 那 么 我 们 得 到 的 结论 就 是 这 种 体重 上 的 差异 完全 
是 由 母亲 的 年 龄 造成 的 。 或 者 ， 如 果 这 些 体重 差异 变 小 了 ， 我 们 可 以 计算 出 母亲 年 龄 对 体重 
差异 造成 了 多 大 的 影响 。 


习题 9-11 


NSFG 的 数据 中 包含 了 一 个 记录 婴儿 出 生 时 母亲 年 龄 的 变量 agepreg。 绘 制 母 亲 年 龄 和 婴儿 出 
生体 重 的 散 点 图 ， 两 者 之 间 关 系 如 何 ? 


用 母亲 年 龄 对 婴儿 出 生体 重 进行 最 小 二 乘 拟 合 。 估 计量 h&、b 的 单位 是 什么 ?是否 可 以 用 一 两 
句 话 描述 这 个 拟 合 结果 的 意义 。 


计算 生 头 胎 婴 儿 的 母亲 年 龄 的 均值 和 生 非 头 胎 婴儿 的 母亲 年 龄 的 均值 。 两 个 分 组 的 母亲 年 龄 
均值 差异 有 多 大 才 会 影响 到 婴儿 出 生体 重 的 差异 ? 婴儿 出 生体 重 的 差异 有 多 大 上 比例 可 以 用 分 
娩 时 母亲 年 龄 的 差异 来 解释 ? 


读者 可 以 从 http://thinkstats.com/agemodel.py 下 载 问题 的 答案 。 如 果 读 者 对 多 元 回 为 感 兴趣 ， 
可 以 浏览 http:Wthinkstats.com/age_Im.py， 这 里 展示 了 如 何 通过 Python 调用 R 这 个 统计 计算 软 
件 。 


9.9 术语 


。 确定 系数 (coefficient of determination) 衡量 模型 拟 合 结果 好 坏 的 指标 。 

。 对 照 组 (control group) 对 照 试验 中 没有 接受 处 理 的 组 ， 或 受到 已 知 效 应 处 理 的 组 。 

。 相关 性 (correlation) 对 两 个 变量 关系 的 一 种 描述 。 

。 协 方差 (covariance) 衡量 两 个 变量 变化 方向 是 否 一 致 的 统计 量 。 

。 因 变 量 (dependent variable) 我 们 想 要 解释 或 者 预测 的 变量 。 

e。 自 变 量 (independent variable) 用 于 预测 因 变 量 的 变量 ， 也 称 解释 变量 。 

。 最 小 二 乘 拟 合 (least squares fit) 最 小 化 残 差 平方 和 的 数据 拟 合 方法 。 

。 自然 试验 (natural experiment) 一 种 试验 设计 的 方法 ， 就 是 利用 自然 形成 的 界限 将 受 
试 者 分 成 几 个 分 组 ， 并 且 大 体 上 使 得 分 组 结果 接近 随机 分 组 。 

。 轨 一 化 (normalize) 将 一 组 数据 进行 转换 ， 使 其 均值 为 0， 方 差 为 1。 

。 随机 对 照 试验 (randomized controlled trial) 一 种 试验 设计 的 方法 ， 将 受 试 者 随机 分 
成 几 个 分 组 ， 并 对 不 同 的 分 组 实施 不 同 的 处 理 。 

。 秩 (rank) 将 一 个 序列 按 大 小 排序 后 ， 序 列 中 的 某 个 元 素 所 处 的 位 置 。 

。 残 差 (residual) 衡量 模型 预测 结果 与 真实 值 离 差 的 值 。 

。 标准 分 数 (standard score) 为 一 化 后 的 值 。 

。 义理 (treatment) 对 照 试 验 中 对 一 个 分 组 所 做 的 干预 或 改变 。 
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